Papers Explained 46: FLAN. In diesem Artikel wird eine einfache Methode für… | untersucht von Ritvik Rastogi | Juli 2023

0
24


Vergleich der Befehlsoptimierung mit Pretrain-Finetune und Prompting

In diesem Artikel wird eine einfache Methode zur Verbesserung der Zero-Shot-Lernfähigkeiten von Sprachmodellen untersucht. Wir zeigen, dass die Optimierung von Anweisungen (Feinabstimmung von Sprachmodellen für eine Sammlung von Datensätzen, die über Anweisungen beschrieben werden) die Zeroshot-Leistung bei unbekannten Aufgaben erheblich verbessert.

Wir nehmen ein vorab trainiertes Sprachmodell mit 137B Parametern und optimieren es an über 60 NLP-Datensätzen, die über natürliche Sprachanweisungsvorlagen verbalisiert werden. Wir evaluieren dieses auf Anweisungen abgestimmte Modell, das wir FLAN nennen, für unbekannte Aufgabentypen.

Oben: Übersicht über Befehlsoptimierung und FLAN. Durch die Anweisungsoptimierung wird ein vorab trainiertes Sprachmodell anhand einer Mischung von Aufgaben, die als Anweisungen formuliert sind, verfeinert. Zum Zeitpunkt der Inferenz bewerten wir einen unbekannten Aufgabentyp. Beispielsweise könnten wir das Modell auf natürliche Sprachinferenz (NLI) auswerten, wenn während der Befehlsoptimierung keine NLI-Aufgaben gesehen wurden. Unten: Leistung von Zero-Shot-FLAN im Vergleich zu Zero-Shot- und Few-Shot-GPT-3 bei drei unbekannten Aufgabentypen, bei denen die Befehlsoptimierung die Leistung von zehn von uns bewerteten deutlich verbesserte. NLI-Datensätze: ANLI R1–R3, CB, RTE. Datensätze zum Leseverständnis: BoolQ, MultiRC, OBQA. QA-Datensätze für geschlossene Bücher: ARC-easy, ARC-challenge, NQ, TriviaQA

Die Motivation der Instruktionsoptimierung besteht darin, die Fähigkeit von Sprachmodellen zu verbessern, auf NLP-Instruktionen zu reagieren. Die Idee dahinter ist, dass der LM lernen wird, Anweisungen zu befolgen und dies auch bei unsichtbaren Aufgaben zu tun, indem er Supervision nutzt, um einem LM beizubringen, in Anweisungen beschriebene Aufgaben auszuführen. Um die Leistung bei unbekannten Aufgaben zu bewerten, gruppieren wir Datensätze nach Aufgabentyp in Cluster und halten jeden Aufgabencluster zur Bewertung bereit, während wir die Anweisungen für alle verbleibenden Cluster optimieren.

Aufgabe und Vorlagen

Wir aggregieren 62 öffentlich verfügbare Textdatensätze, die sowohl Sprachverständnis- als auch Sprachgenerierungsaufgaben umfassen, in einer einzigen Mischung. Jeder Datensatz wird in einen von zwölf Aufgabenclustern kategorisiert, wobei die Datensätze in einem bestimmten Cluster demselben Aufgabentyp angehören.

In diesem Dokument verwendete Datensätze und Aufgabencluster (NLU-Aufgaben in Blau; NLG-Aufgaben in Blaugrün)

Für jeden Datensatz erstellen wir manuell zehn einzigartige Vorlagen, die Anweisungen in natürlicher Sprache verwenden, um die Aufgabe für diesen Datensatz zu beschreiben. Während die meisten der zehn Vorlagen die ursprüngliche Aufgabe beschreiben, um die Vielfalt zu erhöhen, fügen wir für jeden Datensatz auch bis zu drei Vorlagen hinzu, die „die Aufgabe umgedreht“ haben.

Mehrere Anweisungsvorlagen, die eine Inferenzaufgabe in natürlicher Sprache beschreiben

Bewertungsaufteilungen

Wir verwenden eine konservativere Definition, die die Aufgabencluster nutzt. In dieser Arbeit betrachten wir Datensatz D nur dann als zum Zeitpunkt der Auswertung unsichtbar, wenn während der Befehlsoptimierung keine Datensätze aus Aufgabenclustern gesehen wurden, zu denen D gehört. Wenn es sich beispielsweise bei D um eine Entailment-Aufgabe handelt, wurden bei der Befehlsoptimierung keine Entailment-Datensätze angezeigt, und wir führten eine Befehlsoptimierung für alle anderen Cluster durch.1 Um additionally Zero-Shot-FLAN auf c-Aufgabenclustern auszuwerten, geben wir eine Befehlsoptimierung für c-Modelle an Jedes Modell stellt einen anderen Aufgabencluster zur Bewertung bereit.

Modellarchitektur und Vorschulung

In unseren Experimenten verwenden wir LaMDA-PT, ein dichtes Nur-Decoder-Transformator-Sprachmodell von hyperlinks nach rechts mit 137B-Parametern. Dieses Modell wird anhand einer Sammlung von Webdokumenten (einschließlich solchen mit Computercode), Dialogdaten und Wikipedia vorab trainiert und mithilfe des SentencePiece in 2,49T-BPE-Tokens mit einem 32.000-Vokabular tokenisiert. Etwa 10 % der Vortrainingsdaten waren nicht englisch.

Verfahren zur Befehlsoptimierung

Unsere Instruktionsoptimierungspipeline mischt alle Datensätze und stichprobenartig Stichproben aus jedem Datensatz. Um die unterschiedlichen Größen von Datensätzen auszugleichen, begrenzen wir die Anzahl der Trainingsbeispiele professional Datensatz auf 30.000 und folgen dem Beispiel-proportionalen Mischschema mit einer maximalen Mischrate von 3.000. Die bei der Feinabstimmung verwendeten Eingabe- und Zielsequenzlängen betragen 1024 bzw. 256.

Wir bewerten FLAN hinsichtlich natürlicher Sprachinferenz, Leseverständnis, geschlossener Qualitätssicherung, Übersetzung, vernünftigem Denken, Koreferenzauflösung und Struktur-zu-Textual content.

Zero-Shot-Leistung von FLAN im Vergleich zu LaMDA-PT 137B, GPT-3 175B und GLaM 64B/64E in Bezug auf Inferenz natürlicher Sprache, Leseverständnis, Qualitätssicherung bei geschlossenen Büchern und Übersetzung. Die Leistung von FLAN ist der Mittelwert von bis zu 10 Unterrichtsvorlagen professional Aufgabe. Bei den überwachten Modellen handelte es sich entweder um T5-, BERT- oder Übersetzungsmodelle
  • Inferenz natürlicher Sprache (NLI) Bei fünf NLI-Datensätzen, bei denen ein Modell bestimmen muss, ob eine Hypothese unter bestimmten Prämissen wahr ist, übertrifft FLAN alle Basislinien bei weitem. Für FLAN formulieren wir NLI als die natürlichere Frage „Bedeutet das?“ und erzielen so eine viel höhere Leistung.
  • Leseverständnis Beim Leseverständnis, bei dem die Modelle gebeten werden, eine Frage zu einer bereitgestellten Passage zu beantworten, übertrifft FLAN die Basiswerte für MultiRC und OBQA. Auf BoolQ übertrifft FLAN GPT-3 bei weitem, obwohl LaMDA-PT auf BoolQ bereits eine hohe Leistung erzielt.
  • Geschlossene Qualitätssicherung Bei der Closed-Ebook-QA, bei der Modelle aufgefordert werden, Fragen über die Welt zu beantworten, ohne Zugriff auf spezifische Informationen mit der Antwort zu haben, übertrifft FLAN GPT-3 in allen vier Datensätzen. Im Vergleich zu GLaM weist FLAN eine bessere Leistung bei ARC-e und ARC-c und eine etwas geringere Leistung bei NQ und TQA auf.
  • Übersetzung Ähnlich wie bei GPT-3 bestehen die Trainingsdaten für LaMDA-PT zu etwa 90 % aus Englisch und enthalten einige Texte in anderen Sprachen, die nicht speziell zum Trainieren des Modells für die Durchführung maschineller Übersetzung verwendet wurden. Wir bewerten auch die Leistung von FLAN bei der maschinellen Übersetzung für die drei im GPT-3-Papier bewerteten Datensätze: Französisch-Englisch von WMT’14 und Deutsch-Englisch und Rumänisch-Englisch von WMT’16. Im Vergleich zu GPT-3 übertrifft FLAN in allen sechs Bewertungen das Zero-Shot-GPT-3, obwohl es in den meisten Fällen schlechter abschneidet als das Fence-Shot-GPT-3. Ähnlich wie GPT-3 zeigt FLAN gute Ergebnisse bei der Übersetzung ins Englische und schneidet im Vergleich zu überwachten Übersetzungsbasislinien intestine ab. Die Übersetzung aus dem Englischen in andere Sprachen warfare jedoch relativ schwächer, was angesichts der Tatsache, dass FLAN einen englischen Satzteil-Tokenizer verwendet und der Großteil der Vortrainingsdaten auf Englisch erfolgt, zu erwarten warfare.
  • Zusätzliche Aufgaben Obwohl wir für die oben genannten Aufgabencluster starke Ergebnisse sehen, besteht eine Einschränkung bei der Befehlsoptimierung darin, dass sie die Leistung für viele Sprachmodellierungsaufgaben nicht verbessert (z. B. Aufgaben zum logischen Denken oder zur Auflösung von Koreferenzen, die als Satzvervollständigungen formuliert sind). Bei sieben Aufgaben zum vernünftigen Denken und zur Auflösung von Koreferenzen übertrifft FLAN LaMDA-PT nur bei drei der sieben Aufgaben. Dieses detrimental Ergebnis weist darauf hin, dass die Optimierung der Anweisungen nicht sinnvoll ist, wenn die nachgelagerte Aufgabe mit dem ursprünglichen Ziel der Sprachmodellierung vor dem Coaching übereinstimmt.
Ergebnisse für Übersetzungs- und Struktur-zu-Textual content-Aufgaben. [k] gibt die Anzahl der Exemplare mit wenigen Schüssen an. #t gibt die Anzahl der Vorlagen an, anhand derer FLAN ausgewertet wird.
Ergebnisse für acht NLU-Aufgabencluster. Alle angezeigten Werte beziehen sich auf die Genauigkeit (oder genaue Übereinstimmung), mit Ausnahme von DROP, MultiRC und SQuAD v1 und v2, die F1 sind. [k] gibt die Anzahl der Exemplare mit wenigen Schüssen an. #t gibt die Anzahl der Vorlagen an, anhand derer FLAN ausgewertet wird

Fein abgestimmte Sprachmodelle sind Zero-Shot-Lernende 2109.01652

Schauen Sie sich alle Threads dieser Serie an Hier



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here