Stanford- und Cornell-Forscher stellen Tart vor: ein innovatives Plug-and-Play-Transformatormodul, das die Fähigkeiten der KI auf aufgabenunabhängige Weise verbessert

0
26


Ohne die Modellparameter zu ändern, verfügen große Sprachmodelle über kontextbezogene Lernfähigkeiten, die es ihnen ermöglichen, eine Aufgabe mit nur einer geringen Anzahl von Instanzen abzuschließen. Aufgrund seiner aufgabenunabhängigen Natur kann ein Modell für verschiedene Aufgaben verwendet werden. Im Gegensatz dazu modifizieren herkömmliche Techniken zur Aufgabenanpassung, einschließlich Feinabstimmung, die Modellparameter für jede Aufgabe. Auch wenn aufgabenunabhängiges Lernen im Kontext selten die Methode der Wahl des Praktikers ist, da es regelmäßig schlechtere Ergebnisse erzielt als aufgabenspezifische Anpassungstechniken. Die meisten früheren Studien führen diese Leistungsunterschiede auf das eingeschränkte Kontextfenster der LLMs zurück, das nur eine kleine Anzahl von Aufgabenfällen verarbeiten kann.

Sie zeigen jedoch, dass die Lücke zwischen kontextbezogenem Lernen und Feinabstimmungstechniken bestehen bleibt, selbst wenn identische Aufgabenbeispiele gegeben werden. Diese Entdeckung stellt die Frage dar, ob der Leistungsunterschied eine allgemeine Einschränkung aufgabenunabhängiger Anpassungsstrategien ist oder ob er nur beim Lernen im Kontext auftritt. Können sie gezielt Anpassungsstrategien entwickeln, die die unten aufgeführten Anforderungen erfüllen:

• Aufgabenunabhängig: Das gleiche Modell gilt universell für verschiedene Aktivitäten.

• Qualität: Erzielt bei diesen verschiedenen Aufgaben eine Genauigkeit, die mit aufgabenspezifischen Ansätzen konkurrenzfähig ist.

• Datenskalierbar: Die Lerneffizienz steigt mit zunehmender Anzahl von Aufgabeninstanzen. Zunächst untersuchen sie die Ursachen der Qualitätsabweichung.

Sie unterteilen die Fähigkeit eines LLM zum kontextbezogenen Lernen in zwei Komponenten: den Erwerb effektiver Aufgabendarstellungen und die Durchführung probabilistischer Schlussfolgerungen oder Argumentationen über diese Darstellungen. Liegt die Lücke an fehlenden Informationen in den Darstellungen oder an der Unfähigkeit der LLMs, diese zu analysieren? Durch die Bewertung der Argumentations- und Darstellungslücken in einer Reihe von LLM-Familien im Rahmen mehrerer binärer Klassifizierungsaufgaben testen sie diese Annahme empirisch. Sie kommen zu dem Schluss, dass LLMs starke Repräsentationen haben und dass der Großteil der Qualitätsunterschiede auf schwache Argumentation ihrerseits zurückzuführen ist.

Sie entdecken auch, dass die Feinabstimmung das Grundmodell auf beiden Achsen verbessert, vor allem aber das aufgabenspezifische Denken verbessert, was für 72 % der Leistungsverbesserung verantwortlich ist. Überraschenderweise zielen die meisten Methoden zur Verringerung der Leistungslücke, wie etwa Immediate Engineering und aktive Beispielauswahl, nur auf die erlernten Darstellungen des LLM ab. Im Gegensatz dazu untersucht ihre Forschung eine various Strategie zur Verbesserung der LLM-Argumentationsfähigkeiten. Sie verfeinern LLMs mithilfe künstlich erstellter probabilistischer Inferenzherausforderungen als ersten Schritt zur Verbesserung ihrer Denkfähigkeiten. Während diese Methode die grundlegende kontextbezogene Lernleistung des Modells verbessert, erfordert sie auch eine individuelle Feinabstimmung jedes LLM.

Sie gehen noch einen Schritt weiter und spekulieren über die Aussicht, Denkfähigkeiten unabhängig von Aufgaben und Modellen zu entwickeln. Sie zeigen, dass ein völlig agnostischer Ansatz zur Verbesserung der Denkfähigkeiten gewählt werden kann. Forscher der Standford College und der Cornell College schlagen in dieser Studie Tart vor, das ein synthetisch erlerntes Argumentationsmodul verwendet, um die Denkfähigkeiten eines LLM zu verbessern. Nur synthetisch erzeugte logistische Regressionsprobleme, unabhängig von der nachgelagerten Aufgabe oder dem Foundation-LLM, werden von Tart verwendet, um ein Transformer-basiertes Argumentationsmodul zu trainieren. Ohne weitere Schulung kann dieses Inferenzmodul mithilfe der Einbettungen eines LLM erstellt werden, um dessen deduktive Fähigkeiten zu verbessern.

Insbesondere erreicht Tart die notwendigen Ziele:

• Aufgabenneutral: Tarts Inferenzmodul muss einmalig mit fiktiven Daten trainiert werden.

• Qualität: Erbringt auf ganzer Linie eine bessere Leistung als einfaches LLM und schließt die Lücke durch aufgabenspezifische Feinabstimmungstechniken.

• Datenskalierbar: Bewältigung zehnmal so vieler Instanzen wie beim Lernen im Kontext.

Tart ist unabhängig von Aufgabe, Modell und Domäne. Sie zeigen, dass Tart über drei Modellfamilien hinweg über 14 NLP-Klassifizierungsaufgaben und sogar über verschiedene Domänen hinweg verallgemeinert, indem es ein einziges Inferenzmodul verwendet, das auf synthetischen Daten trainiert wird. Sie zeigen, dass die Leistung von Tart hinsichtlich der Qualität dem Lernen im Kontext um 18,4 %, der aufgabenspezifischen Adapter um 3,4 % und der vollständigen aufgabenspezifischen Feinabstimmung bei verschiedenen NLP-Aufgaben um 3,1 % überlegen ist.

Beim RAFT-Benchmark steigert Tart die Leistung von GPT-Neo bis zu einem Punkt, an dem sie mit GPT-3 und Bloom gleichzieht und letzteren um 4 % übertrifft. Tart löst die unangenehm kurze Kontextdauerbarriere des kontextbezogenen Lernens und ist datenskalierbar. In einem LLM kann jedes Beispiel mehrere Tokens beanspruchen, oft Hunderte, während das Argumentationsmodul von Tart nur zwei Tokens professional Fall verwendet – eines für den Kontext und eines für die Bezeichnung. Die Vorteile, die sich aus dieser Datenskalierbarkeit ergeben können, können bis zu 6,8 % betragen. Theoretisch zeigen sie, dass Tarts Generalisierungsfähigkeiten hauptsächlich von der Verteilungsverschiebung zwischen der synthetischen Datenverteilung und der natürlichen Texteinbettungsverteilung abhängen, wie durch die Wasserstein-1-Metrik bewertet.

Im Folgenden finden Sie eine Zusammenfassung ihrer wichtigsten Beiträge:

• Untersuchen Sie mithilfe einer Repräsentationsbegründungszerlegung, warum die aufgabenspezifische Feinabstimmung das kontextbezogene Lernen übertrifft und gleichzeitig Zugriff auf die gleichen Informationen hat.

• Präsentieren Sie Tart, einen neuartigen aufgabenunabhängigen Ansatz, der aufgabenspezifische Ansätze übertrifft und keine echten Daten für das Coaching erfordert.

• Beweisen Sie, dass Tart für verschiedene Modellfamilien bei NLP-Aufgaben effektiv ist. Das gleiche Inferenzmodul gilt auch für Sprach- und visuelle Domänen.


Besuche die Papier Und Github-Link. Vergessen Sie nicht, mitzumachen unser 24k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com

🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an


Aneesh Tickoo ist Beratungspraktikantin bei MarktechPost. Derzeit absolviert er seinen Bachelor-Abschluss in Datenwissenschaft und künstlicher Intelligenz am Indian Institute of Expertise (IIT) in Bhilai. Die meiste Zeit verbringt er mit der Arbeit an Projekten, die darauf abzielen, die Leistungsfähigkeit des maschinellen Lernens zu nutzen. Sein Forschungsinteresse gilt der Bildverarbeitung und er ist leidenschaftlich daran interessiert, Lösungen dafür zu entwickeln. Er liebt es, mit Menschen in Kontakt zu treten und an interessanten Projekten mitzuarbeiten.




Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here