MIT-Forscher machen Sprachmodelle zu skalierbaren Selbstlernern | MIT-Nachrichten

0
29

Sokrates sagte einmal: „Es ist nicht die Größe einer Sache, sondern die Qualität, die wirklich zählt.“ Denn der wahre Wert liegt in der Beschaffenheit der Substanz, nicht in ihrem Volumen.“

Spielt die Größe bei großen Sprachmodellen (LLMs) immer eine Rolle? In einer technologischen Landschaft, die von LLMs im Mittelpunkt steht, ist ein Staff von Forschern des MIT Pc Science and Synthetic Intelligence Laboratory (CSAIL) der Meinung, dass kleinere Modelle nicht übersehen werden sollten, insbesondere bei Produkten zum Verständnis natürlicher Sprache, die in der Branche weit verbreitet sind.

Zu diesem Zweck entwickelten die Forscher einen Ansatz für die seit langem bestehenden Probleme der Ineffizienz und des Datenschutzes, die mit großen, textbasierten KI-Modellen einhergehen – ein logikbewusstes Modell, das bei einigen Sprachverständnisaufgaben ohne menschliche Hilfe 500-mal größere Gegenstücke übertrifft. generierte Anmerkungen unter Wahrung der Privatsphäre und Robustheit bei hoher Leistung.

LLMs, die einige vielversprechende Fähigkeiten bei der Generierung von Sprache, Kunst und Code gezeigt haben, sind rechenintensiv und ihre Datenanforderungen können bei der Verwendung von Anwendungsprogrammierschnittstellen zum Hochladen von Daten zu Datenschutzverletzungen führen. Kleinere Modelle waren in der Vergangenheit im Vergleich zu ihren größeren Gegenstücken insbesondere bei Multitasking und schwach überwachten Aufgaben weniger leistungsfähig.

Was hilft diesen kleineren Modellen dann, so mächtig zu wirken? Etwas, das als „textuelle Folgerung“ bezeichnet wird und diesen Modellen hilft, eine Vielzahl von Sprachaufgaben zu verstehen. Wenn ein Satz (die Prämisse) wahr ist, ist es wahrscheinlich, dass auch der andere Satz (die Hypothese) wahr ist. Wenn die Prämisse beispielsweise lautet: „Alle Katzen haben einen Schwanz“, dann würde die Hypothese „Eine getigerte Katze hat einen Schwanz“ impliziert. Dieses Konzept wird verwendet, um ein „Entailment-Modell“ zu trainieren, das sich aus früheren Untersuchungen des Groups als weniger voreingenommen erwiesen hat als andere Sprachmodelle. Anschließend erstellten sie „Eingabeaufforderungen“, mit denen die Modelle anhand verschiedener Aufgaben herausfinden können, ob bestimmte Informationen in einem bestimmten Satz oder einer bestimmten Phrase enthalten sind. Diese Methode verbesserte die Fähigkeit des Modells, sich ohne zusätzliches Coaching an verschiedene Aufgaben anzupassen, was als Zero-Shot-Adaption bezeichnet wird.

Im Bereich des „Verstehens natürlicher Sprache“ gibt es verschiedene Anwendungen, bei denen es auf die Bestimmung der Beziehung zwischen zwei Textteilen ankommt. Bei der Stimmungsklassifizierung kann beispielsweise eine Aussage wie „Ich finde den Movie intestine“ aus einer Filmrezension abgeleitet oder abgeleitet werden, in der es heißt: „Ich magazine die Geschichte und die Schauspielerei sind großartig“, was auf eine constructive Stimmung hinweist. Eine weitere Möglichkeit ist die Nachrichtenklassifizierung, bei der das Thema eines Nachrichtenartikels aus seinem Inhalt abgeleitet werden kann. Beispielsweise kann eine Aussage wie „Der Nachrichtenartikel handelt von Sport“ nach sich ziehen, wenn der Hauptinhalt des Artikels über ein NBA-Spiel berichtet. Die wichtigste Erkenntnis conflict, dass viele bestehende Aufgaben zum Verstehen natürlicher Sprache in eine Folgeaufgabe (dh logische Schlussfolgerung in natürlicher Sprache) umgewandelt werden könnten.

„Bei unserer Forschung geht es darum, die Fähigkeit von Computerprogrammen zu verbessern, natürliche Sprache – die Artwork und Weise, wie Menschen sprechen und schreiben – zu verstehen und zu verarbeiten. „Unsere selbst trainierten Entailment-Modelle mit 350 Millionen Parametern und ohne vom Menschen generierte Bezeichnungen übertreffen überwachte Sprachmodelle mit 137 bis 175 Milliarden Parametern“, sagt MIT CSAIL-Postdoktorand Hongyin Luo, Hauptautor von a neues Papier über die Studie. „Dies hat das Potenzial, die Landschaft von KI und maschinellem Lernen neu zu gestalten und eine skalierbarere, vertrauenswürdigere und kostengünstigere Lösung für die Sprachmodellierung bereitzustellen“, sagt Luo. „Durch den Nachweis, dass kleinere Modelle beim Sprachverständnis die gleiche Leistung wie größere erbringen können, ebnet diese Arbeit den Weg für nachhaltigere und die Privatsphäre schützende KI-Technologien.“

Das Staff entdeckte, dass es die Leistung des Modells noch weiter verbessern konnte, indem es eine Technik namens „Selbsttraining“ nutzte, bei der das Modell seine eigenen Vorhersagen nutzt, um sich selbst beizubringen, und so ohne menschliche Aufsicht und zusätzliche annotierte Trainingsdaten effektiv lernt. Die Selbsttrainingsmethode Die Leistung bei einer Reihe nachgelagerter Aufgaben, einschließlich Stimmungsanalyse, Fragebeantwortung und Nachrichtenklassifizierung, wurde erheblich verbessert. Es übertraf sowohl Googles LaMDA als auch FLAN in Bezug auf Zero-Shot-Funktionen, GPT-Modelle und andere überwachte Algorithmen.

Eine Herausforderung beim Selbsttraining besteht jedoch darin, dass das Modell manchmal falsche oder verrauschte Bezeichnungen generieren kann, die die Leistung beeinträchtigen. Um dieses Drawback zu lösen, entwickelten sie einen neuen Algorithmus namens „SimPLE“ (Easy Pseudo-Label Modifying), einen Prozess zur Überprüfung und Änderung der in den ersten Lernrunden erstellten Pseudo-Labels. Durch die Korrektur etwaiger falsch gekennzeichneter Instanzen wurde die Gesamtqualität der selbst erstellten Etiketten verbessert. Dies machte die Modelle nicht nur effektiver beim Verstehen von Sprache, sondern auch robuster gegenüber widersprüchlichen Daten.

Wie bei den meisten Forschungsarbeiten gibt es einige Einschränkungen. Das Selbsttraining bei Mehrklassen-Klassifizierungsaufgaben erbrachte bei Aufgaben zum Verstehen binärer natürlicher Sprache keine so gute Leistung, was auf die Herausforderung hindeutet, Folgerungsmodelle auf Multi-Selection-Aufgaben anzuwenden.

„Diese Forschung stellt einen effizienten und effektiven Weg dar, große Sprachmodelle (LLMs) zu trainieren, indem Aufgaben zum Verstehen natürlicher Sprache als kontextuelle Folgerungsprobleme formuliert werden und ein Pseudo-Labeling-Selbsttrainingsmechanismus eingesetzt wird, um große Mengen unbeschrifteter Textdaten in den Trainingsprozess einzubeziehen. „fügt CSAIL Senior Analysis Scientist James Glass hinzu, der auch Autor des Papiers ist. „Während der Bereich der LLMs schnellen und dramatischen Veränderungen unterliegt, zeigt diese Forschung, dass es möglich ist, relativ kompakte Sprachmodelle zu erstellen, die bei Benchmark-Verständnisaufgaben im Vergleich zu ihren etwa gleich großen oder sogar viel größeren Sprachmodellen sehr intestine abschneiden.“ .“

„Entailment-Aufgabe ist ein beliebter Proxy zur Bewertung des „Verständnisses“ eines bestimmten Kontexts durch ein KI-Modell“, sagt Leonid Karlinsky, Forschungsmitarbeiter am MIT-IBM Watson AI Lab. „Es wird in vielen Bereichen zur Analyse von Modellen mit unimodalen Modellen wie LLMs und multimodalen Modellen wie VLMs eingesetzt [visual language models] Eingaben, die die Aufgabe der Beantwortung von Fragen zu einem bestimmten Eingabekontext zu einem binären Klassifizierungsproblem vereinfachen – bringt dieser Kontext eine bestimmte (z. B. Textual content-) Schlussfolgerung mit sich oder nicht? Dieses Papier leistet in diesem Bereich zwei Beiträge. Erstens wird eine Möglichkeit vorgeschlagen, die Zero-Shot-NLU-Leistung (ohne zusätzliche Optimierung) und die Robustheit gegenüber gegnerischen Angriffen durch Optimierung mit synthetisierten (spezialisierten) Entailment-Aufgaben zu verbessern, die für die ursprüngliche NLU-Aufgabe generiert werden. Zweitens bietet es eine selbstüberwachte SimPLE-Methode einschließlich Pseudo-Labeling und konfidenzbasierter Filterung, um die NLU-Leistung großer LLMs weiter zu verbessern.“

Luo und Glass verfassten die Arbeit zusammen mit Yoon Kim, einem CSAIL-Mitglied und Assistenzprofessor an der Fakultät für Elektrotechnik und Informatik des MIT, und Jiaxin Ge von der Universität Peking. Ihre Arbeit wird diesen Juli auf dem Treffen der Affiliation for Computational Linguistics in Toronto, Ontario, vorgestellt. Diese Forschung wurde durch ein Stipendium des Hong Kong Innovation AI-Programms unterstützt.



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here