In diesem Artikel wird eine einfache Methode zur Verbesserung der Zero-Shot-Lernfähigkeiten von Sprachmodellen untersucht. Wir zeigen, dass die Optimierung von Anweisungen (Feinabstimmung von Sprachmodellen für eine Sammlung von Datensätzen, die über Anweisungen beschrieben werden) die Zeroshot-Leistung bei unbekannten Aufgaben erheblich verbessert.
Wir nehmen ein vorab trainiertes Sprachmodell mit 137B Parametern und optimieren es an über 60 NLP-Datensätzen, die über natürliche Sprachanweisungsvorlagen verbalisiert werden. Wir evaluieren dieses auf Anweisungen abgestimmte Modell, das wir FLAN nennen, für unbekannte Aufgabentypen.
Die Motivation der Instruktionsoptimierung besteht darin, die Fähigkeit von Sprachmodellen zu verbessern, auf NLP-Instruktionen zu reagieren. Die Idee dahinter ist, dass der LM lernen wird, Anweisungen zu befolgen und dies auch bei unsichtbaren Aufgaben zu tun, indem er Supervision nutzt, um einem LM beizubringen, in Anweisungen beschriebene Aufgaben auszuführen. Um die Leistung bei unbekannten Aufgaben zu bewerten, gruppieren wir Datensätze nach Aufgabentyp in Cluster und halten jeden Aufgabencluster zur Bewertung bereit, während wir die Anweisungen für alle verbleibenden Cluster optimieren.
Aufgabe und Vorlagen
Wir aggregieren 62 öffentlich verfügbare Textdatensätze, die sowohl Sprachverständnis- als auch Sprachgenerierungsaufgaben umfassen, in einer einzigen Mischung. Jeder Datensatz wird in einen von zwölf Aufgabenclustern kategorisiert, wobei die Datensätze in einem bestimmten Cluster demselben Aufgabentyp angehören.
Für jeden Datensatz erstellen wir manuell zehn einzigartige Vorlagen, die Anweisungen in natürlicher Sprache verwenden, um die Aufgabe für diesen Datensatz zu beschreiben. Während die meisten der zehn Vorlagen die ursprüngliche Aufgabe beschreiben, um die Vielfalt zu erhöhen, fügen wir für jeden Datensatz auch bis zu drei Vorlagen hinzu, die „die Aufgabe umgedreht“ haben.
Bewertungsaufteilungen
Wir verwenden eine konservativere Definition, die die Aufgabencluster nutzt. In dieser Arbeit betrachten wir Datensatz D nur dann als zum Zeitpunkt der Auswertung unsichtbar, wenn während der Befehlsoptimierung keine Datensätze aus Aufgabenclustern gesehen wurden, zu denen D gehört. Wenn es sich beispielsweise bei D um eine Entailment-Aufgabe handelt, wurden bei der Befehlsoptimierung keine Entailment-Datensätze angezeigt, und wir führten eine Befehlsoptimierung für alle anderen Cluster durch.1 Um additionally Zero-Shot-FLAN auf c-Aufgabenclustern auszuwerten, geben wir eine Befehlsoptimierung für c-Modelle an Jedes Modell stellt einen anderen Aufgabencluster zur Bewertung bereit.
Modellarchitektur und Vorschulung
In unseren Experimenten verwenden wir LaMDA-PT, ein dichtes Nur-Decoder-Transformator-Sprachmodell von hyperlinks nach rechts mit 137B-Parametern. Dieses Modell wird anhand einer Sammlung von Webdokumenten (einschließlich solchen mit Computercode), Dialogdaten und Wikipedia vorab trainiert und mithilfe des SentencePiece in 2,49T-BPE-Tokens mit einem 32.000-Vokabular tokenisiert. Etwa 10 % der Vortrainingsdaten waren nicht englisch.
Verfahren zur Befehlsoptimierung
Unsere Instruktionsoptimierungspipeline mischt alle Datensätze und stichprobenartig Stichproben aus jedem Datensatz. Um die unterschiedlichen Größen von Datensätzen auszugleichen, begrenzen wir die Anzahl der Trainingsbeispiele professional Datensatz auf 30.000 und folgen dem Beispiel-proportionalen Mischschema mit einer maximalen Mischrate von 3.000. Die bei der Feinabstimmung verwendeten Eingabe- und Zielsequenzlängen betragen 1024 bzw. 256.
Wir bewerten FLAN hinsichtlich natürlicher Sprachinferenz, Leseverständnis, geschlossener Qualitätssicherung, Übersetzung, vernünftigem Denken, Koreferenzauflösung und Struktur-zu-Textual content.
- Inferenz natürlicher Sprache (NLI) Bei fünf NLI-Datensätzen, bei denen ein Modell bestimmen muss, ob eine Hypothese unter bestimmten Prämissen wahr ist, übertrifft FLAN alle Basislinien bei weitem. Für FLAN formulieren wir NLI als die natürlichere Frage „Bedeutet das?“ und erzielen so eine viel höhere Leistung.
- Leseverständnis Beim Leseverständnis, bei dem die Modelle gebeten werden, eine Frage zu einer bereitgestellten Passage zu beantworten, übertrifft FLAN die Basiswerte für MultiRC und OBQA. Auf BoolQ übertrifft FLAN GPT-3 bei weitem, obwohl LaMDA-PT auf BoolQ bereits eine hohe Leistung erzielt.
- Geschlossene Qualitätssicherung Bei der Closed-Ebook-QA, bei der Modelle aufgefordert werden, Fragen über die Welt zu beantworten, ohne Zugriff auf spezifische Informationen mit der Antwort zu haben, übertrifft FLAN GPT-3 in allen vier Datensätzen. Im Vergleich zu GLaM weist FLAN eine bessere Leistung bei ARC-e und ARC-c und eine etwas geringere Leistung bei NQ und TQA auf.
- Übersetzung Ähnlich wie bei GPT-3 bestehen die Trainingsdaten für LaMDA-PT zu etwa 90 % aus Englisch und enthalten einige Texte in anderen Sprachen, die nicht speziell zum Trainieren des Modells für die Durchführung maschineller Übersetzung verwendet wurden. Wir bewerten auch die Leistung von FLAN bei der maschinellen Übersetzung für die drei im GPT-3-Papier bewerteten Datensätze: Französisch-Englisch von WMT’14 und Deutsch-Englisch und Rumänisch-Englisch von WMT’16. Im Vergleich zu GPT-3 übertrifft FLAN in allen sechs Bewertungen das Zero-Shot-GPT-3, obwohl es in den meisten Fällen schlechter abschneidet als das Fence-Shot-GPT-3. Ähnlich wie GPT-3 zeigt FLAN gute Ergebnisse bei der Übersetzung ins Englische und schneidet im Vergleich zu überwachten Übersetzungsbasislinien intestine ab. Die Übersetzung aus dem Englischen in andere Sprachen warfare jedoch relativ schwächer, was angesichts der Tatsache, dass FLAN einen englischen Satzteil-Tokenizer verwendet und der Großteil der Vortrainingsdaten auf Englisch erfolgt, zu erwarten warfare.
- Zusätzliche Aufgaben Obwohl wir für die oben genannten Aufgabencluster starke Ergebnisse sehen, besteht eine Einschränkung bei der Befehlsoptimierung darin, dass sie die Leistung für viele Sprachmodellierungsaufgaben nicht verbessert (z. B. Aufgaben zum logischen Denken oder zur Auflösung von Koreferenzen, die als Satzvervollständigungen formuliert sind). Bei sieben Aufgaben zum vernünftigen Denken und zur Auflösung von Koreferenzen übertrifft FLAN LaMDA-PT nur bei drei der sieben Aufgaben. Dieses detrimental Ergebnis weist darauf hin, dass die Optimierung der Anweisungen nicht sinnvoll ist, wenn die nachgelagerte Aufgabe mit dem ursprünglichen Ziel der Sprachmodellierung vor dem Coaching übereinstimmt.
Fein abgestimmte Sprachmodelle sind Zero-Shot-Lernende 2109.01652
Schauen Sie sich alle Threads dieser Serie an Hier