Wie wir gesehen haben, bedeuten mehr Parameter nicht unbedingt eine bessere Leistung. Für eine bessere Leistung benötigen wir hochwertige Token (Texte), aber diese sind Mangelware. Wie können wir sie erhalten? Können wir uns mit künstlicher Intelligenz helfen?
Warum verwenden wir Chat-GPT nicht zur Texterstellung?
Wenn wir Menschen nicht genug Textual content produzieren, warum nicht diesen Prozess automatisieren? Eine aktuelle Studie zeigt wie dieser Prozess nicht optimal ist. Stanford Alpaca wurde anhand von 52.000 abgeleiteten Beispielen trainiert GPT-3erzielte aber nur scheinbar eine ähnliche Leistung. In Wirklichkeit lernt das Modell den Stil des Zielmodells, nicht jedoch dessen Wissen.
Warum nicht länger trainieren?
Sowohl für PaLM, Gopher als auch für LLaMA (auch für die anderen LLMs) steht klar geschrieben, dass die Modelle für einige Epochen (eine oder wie auch immer wenige) trainiert wurden. Dies stellt keine Einschränkung dar Transformator denn zum Beispiel die Vision Transformers (ViT) wurden für 300 Epochen auf ImageNet (1 Million Bilder) trainiert, wie in der Tabelle gezeigt:
Weil es mehr als teuer ist. Im LLaMA-Artikel, trainierten die Autoren nur für eine Epoche (und zwei Epochen nur für einen Teil des Datensatzes). Dennoch berichten die Autoren:
Beim Coaching eines 65B-Parameter-Modells verarbeitet unser Code etwa 380 Token/Sek./GPU auf einer 2048 A100 GPU mit 80 GB RAM. Das bedeutet, dass das Coaching unseres Datensatzes mit 1,4T-Tokens etwa 21 Tage dauert. (Quelle)
Die Ausbildung eines LLM für nur ein paar Epochen ist extrem kostspielig. Wie berechnet von Dmytro Nikolaiev (Dimid) das ist Sinn 4,0 Millionen Dollar wenn Sie ein Modell ähnlich dem LLaMA von META auf der Google Cloud Platform trainieren.
Das Coaching für andere Epochen würde additionally zu einem exponentiellen Kostenanstieg führen. Außerdem wissen wir nicht, ob diese Zusatzschulung wirklich sinnvoll ist, da wir sie noch nicht getestet haben.
Kürzlich untersuchte eine Forschergruppe der Universität Singapur, was passiert, wenn wir einen LLM für mehrere Epochen trainieren:
Bisher wissen wir, dass die Leistung eines Modells nicht nur von der Anzahl der Parameter, sondern auch von der Anzahl der zum Coaching verwendeten Qualitätstoken abhängt. Andererseits gibt es nicht unendlich viele Qualitätstoken und wir nähern uns der Grenze. Was können wir tun, wenn wir nicht genügend hochwertige Token finden und es eine Possibility zur Generierung mit KI gibt?
Können wir dasselbe Trainingsset verwenden und länger trainieren?
Es gibt eine lateinische Redensart, die besagt, dass das Wiederholen von Dingen Vorteile bringt (rEpetita iuvant), aber im Laufe der Zeit fügte jemand hinzu: „aber anhaltende Langeweile“ (Continata-Sekante).
Das Gleiche gilt für neuronale Netze: Eine Erhöhung der Anzahl der Epochen verbessert die Netzwerkleistung (Verringerung der Verluste); Irgendwann jedoch, während der Verlust im Trainingssatz weiter sinkt, beginnt der Verlust im Validierungssatz zu steigen. Das neuronale Netzwerk ging hinein Überanpassungbeginnt, Muster zu berücksichtigen, die nur im Trainingssatz vorhanden sind, und verliert die Fähigkeit zur Verallgemeinerung.
Okay, das wurde ausführlich für kleine neuronale Netze untersucht, aber was ist mit großen Transformatoren?
Die Autoren dieser Studie verwendeten die T5-Modell (Encoder-Decoder-Modell) im C4-Datensatz. Die Autoren trainierten mehrere Versionen des Modells und erhöhten die Anzahl der Parameter, bis das größere Modell das kleinere Modell übertraf (was darauf hinweist, dass das größere Modell eine ausreichende Anzahl von Token erhielt, wie es das Chinchilla-Gesetz besagt). Die Autoren stellten fest, dass es einen linearen Zusammenhang zwischen der Anzahl der erforderlichen Token und der Größe des Modells gab (was DeepMind bei Chinchilla sah).
Der C4-Datensatz ist begrenzt (verfügt nicht über unendlich viele Token). Um die Anzahl der Parameter zu erhöhen, befanden sich die Autoren daher in einer State of affairs mit Token-Knappheit. Daher beschlossen sie, zu simulieren, was passiert, wenn ein LLM wiederholte Daten sieht. Sie probierten eine bestimmte Anzahl von Token aus, sodass das Modell sie beim Token-Coaching wieder sah. Dies zeigte:
- Wiederholte Token führen zu Leistungseinbußen.
- Größere Modelle sind unter Token-Krisenbedingungen anfälliger für eine Überanpassung (obwohl sie theoretisch mehr Rechenressourcen verbrauchen, führt dies zu einer Leistungseinbuße).
Darüber hinaus werden diese Modelle für nachgelagerte Aufgaben eingesetzt. Häufig wird ein LLM unbeaufsichtigt an einer großen Textmenge trainiert und dann an einem kleineren Datensatz für eine nachgelagerte Aufgabe verfeinert. Oder es durchläuft einen Prozess namens Alignment (wie im Fall von ChatGPT).
Wenn ein LLM auf wiederholte Daten trainiert wird, obwohl es anschließend auf einen anderen Datensatz abgestimmt wird, nimmt die Leistung ab. Daher sind auch die nachgelagerten Aufgaben betroffen.
Wir haben gerade gesehen, dass wiederholte Token dem Coaching schaden. Aber warum passiert das?
Die Autoren beschlossen, dies zu untersuchen, indem sie die Anzahl der wiederholten Token konstant hielten und die Anzahl der Gesamttoken im Datensatz erhöhten. Die Ergebnisse zeigen, dass ein größerer Datensatz die Degradationsprobleme über mehrere Epochen hinweg lindert.
Letztes Jahr Galactica veröffentlicht wurde (ein Modell, das Wissenschaftlern helfen sollte, aber dauerte nur drei Tage). Abgesehen von dem spektakulären Debakel deutete der Artikel darauf hin, dass ein Teil ihrer Ergebnisse auf die Qualität der Daten zurückzuführen sei. Laut den Autoren verringerte die Datenqualität das Risiko einer Überanpassung:
Wir sind in der Lage, darauf für mehrere Epochen ohne Überanpassung zu trainieren, wobei sich die Upstream- und Downstream-Leistung durch die Verwendung wiederholter Token verbessert. (Quelle)
Für die Autoren beeinträchtigen die wiederholten Token nicht nur das Modelltraining nicht, sondern verbessern sogar die Downstream-Leistung.
In dieser neuen Studie verwenden die Autoren den Wikipedia-Datensatz, der als hochwertigerer Datensatz als C4 gilt, und fügen wiederholte Token hinzu. Die Ergebnisse zeigen, dass es einen ähnlichen Grad der Verschlechterung gibt, was im Widerspruch zu den Angaben im Artikel der Galactica steht.
Die Autoren versuchten auch zu untersuchen, ob dies auch an der Modellskalierung lag. Bei der Skalierung eines Modells steigen sowohl die Anzahl der Parameter als auch der Rechenaufwand. Die Autoren beschlossen, diese beiden Faktoren einzeln zu untersuchen:
- Mixture-of-Experts (MoE) denn obwohl es die Anzahl der Parameter erhöht, bleibt der Rechenaufwand ähnlich.
- ParamSharehingegen reduziert die Anzahl der Parameter, behält aber den gleichen Rechenaufwand bei.
Die Ergebnisse zeigen, dass das Modell mit weniger Parametern weniger von wiederholten Tokens beeinflusst wird. Im Gegensatz dazu ist das MoE-Modell (größere Anzahl von Parametern) anfälliger für Überanpassung. Das Ergebnis ist interessant, da MoE in vielen KI-Modellen erfolgreich eingesetzt wurde. Daher schlagen die Autoren vor, dass MoE zwar eine nützliche Technik ist, wenn genügend Daten vorhanden sind, die Leistung jedoch beeinträchtigen kann, wenn nicht genügend Token vorhanden sind.
Die Autoren untersuchten auch, ob objektives Coaching Auswirkungen auf den Leistungsabfall hat. Generell gibt es zwei Ausbildungsziele:
Kürzlich mit PaLM2–2Google hat UL2 eingeführt, eine Mischung aus diesen beiden Trainingszielen. Es hat sich gezeigt, dass UL2 das Modelltraining beschleunigt. Interessanterweise ist UL2 jedoch anfälliger für Überanpassung und weist eine stärkere Verschlechterung über mehrere Epochen hinweg auf.
Als nächstes untersuchten die Autoren, wie sie versuchen könnten, den Verfall über mehrere Epochen hinweg zu mildern. Da Regularisierungstechniken gerade dazu dienen, eine Überanpassung zu verhindern, haben die Autoren getestet, ob diese Techniken auch hier einen positiven Effekt haben.
Dropout erweist sich als eine der effizientesten Techniken zur Linderung des Issues. Dies ist nicht überraschend, da es sich um eine der effizientesten Regularisierungstechniken handelt, die leicht zu parallelisieren ist und von den meisten Modellen verwendet werden kann.
Darüber hinaus funktioniert es am besten, wenn die Autoren ohne Dropout beginnen und erst zu einem späteren Zeitpunkt im Coaching Dropout hinzufügen.
Andererseits weisen die Autoren darauf hin, dass die Verwendung von Dropout bei einigen Modellen, insbesondere den größeren, zu einer leichten Leistungseinbuße führen kann. Obwohl dies möglicherweise optimistic Auswirkungen auf die Überanpassung hat, kann es in anderen Kontexten zu unerwartetem Verhalten führen. So sehr, dass die Modelle GPT-3, PaLM, LLaMA, Chinchilla und Gopher es nicht in ihrer Architektur verwenden.
Wie in der folgenden Tabelle beschrieben, verwendeten die Autoren für ihre Experimente Modelle, die heute als nahezu kleine Modelle gelten. Daher ist es kostspielig, beim Entwurf eines LLM verschiedene Hyperparameter zu testen:
In unserem speziellen Szenario würde beispielsweise das fünfmalige Coaching von T5-XL etwa 37.000 USD für die Miete von Google Cloud TPUs erfordern. Betrachtet man noch größere Modelle wie PaLM und GPT-4, die auf noch größeren Datensätzen trainiert werden, werden diese Kosten unüberschaubar (Quelle)
Da in ihren Experimenten ein Sparse-MoE-Modell das Verhalten eines dichten Modells annähert (was rechenintensiver ist), kann man damit nach den besten Hyperparametern suchen.
Die Autoren zeigen beispielsweise, dass man unterschiedliche Lernraten für das MoE-Modell testen kann und es die gleiche Leistung wie das entsprechende dichte Modell aufweist. Für die Autoren kann man additionally verschiedene Hyperparameter mit dem MoE-Modell testen und dann mit den gewählten Parametern das dichte Modell trainieren, wodurch Kosten gespart werden:
Für die Umsetzung des MoE-Giant-Modells fielen Ausgaben in Höhe von ca. 10,6.000 USD für die Google Cloud Platform an. Umgekehrt waren für das einmalige Coaching des Dense XL-Modells 7,4.000 USD erforderlich. Folglich beliefen sich die Gesamtkosten für den gesamten Entwicklungsprozess, einschließlich der Reinigung, auf 18.000 USD, was nur dem 0,48-fachen der Kosten für die direkte Abstimmung des Dense XL-Modells entspricht (Quelle)