In den letzten Jahren lag ein Schwerpunkt der Sprachmodellierung auf der Verbesserung der Leistung durch die Erhöhung der Anzahl von Parametern in transformatorbasierten Modellen. Dieser Ansatz hat bei vielen Aufgaben der Verarbeitung natürlicher Sprache zu beeindruckenden Ergebnissen und modernster Leistung geführt.
Wir haben diese Forschungsrichtung auch bei DeepMind verfolgt und kürzlich Gopher vorgestellt, ein 280-Milliarden-Parameter-Modell, das Spitzenleistungen bei einer Vielzahl von Aufgaben wie Sprachmodellierung, Leseverständnis und Beantwortung von Fragen erbracht hat. Seitdem wurde ein noch größeres Modell namens Megatron-Turing NLG mit 530 Milliarden Parametern veröffentlicht.
Aufgrund der erheblichen Kosten für das Coaching dieser großen Modelle ist es von größter Bedeutung, den bestmöglichen Trainingsaufbau abzuschätzen, um Ressourcenverschwendung zu vermeiden. Insbesondere werden die Trainingsrechenkosten für Transformatoren durch zwei Faktoren bestimmt: die Modellgröße und die Anzahl der Trainingstokens.
Die aktuelle Technology großer Sprachmodelle hat mehr Rechenressourcen bereitgestellt, um die Parameteranzahl großer Modelle zu erhöhen und die Trainingsdatengröße auf etwa 300 Milliarden Token zu begrenzen. In dieser Arbeit untersuchen wir empirisch den optimalen Kompromiss zwischen zunehmender Modellgröße und der Menge an Trainingsdaten bei zunehmenden Rechenressourcen. Konkret stellen wir die Frage: „Was ist die optimale Modellgröße und Anzahl der Trainingstokens für ein gegebenes Rechenbudget?“ Um diese Frage zu beantworten, trainieren wir Modelle unterschiedlicher Größe und mit unterschiedlicher Anzahl an Token und schätzen diesen Kompromiss empirisch ab.
Unser wichtigstes Ergebnis ist, dass die aktuellen großen Sprachmodelle viel zu groß für ihr Rechenbudget sind und nicht auf ausreichend Daten trainiert werden. Tatsächlich finden wir das für die Anzahl der Trainings-FLOPs, die zum Coaching verwendet wurden Gopherwäre ein viermal kleineres Modell, das mit viermal mehr Daten trainiert wurde, vorzuziehen gewesen.
Wir testen unsere Datenskalierungshypothese durch Coaching Chinchilla, ein 70-Milliarden-Parameter-Modell, das für 1,3 Billionen Token trainiert wurde. Während die Trainingskosten für Chinchilla berechnet werden Und Gopher sind gleich, wir stellen fest, dass es Gopher und andere große Sprachmodelle bei quick jeder gemessenen Aufgabe übertrifft, obwohl es 70 Milliarden Parameter im Vergleich zu Gophers 280 Milliarden hat.

Nach der Veröffentlichung von Chinchilla wurde ein Modell namens PaLM mit 540 Milliarden Parametern veröffentlicht und auf 768 Milliarden Token trainiert. Dieses Modell wurde mit etwa dem Fünffachen des Rechenbudgets von Chinchilla trainiert und übertraf Chinchilla bei einer Reihe von Aufgaben. Obwohl der Trainingskorpus unterschiedlich ist, sagen unsere Methoden voraus, dass ein solches auf unseren Daten trainiertes Modell Chinchilla übertreffen würde, obwohl es nicht rechenoptimal ist. Angesichts des PaLM-Rechenbudgets gehen wir davon aus, dass ein Modell mit 140 Milliarden Parametern, das auf 3 Billionen Token trainiert wird, optimum und effizienter für die Inferenz ist.
Ein zusätzlicher Vorteil kleinerer, leistungsfähigerer Modelle besteht darin, dass die Inferenzzeit und die Speicherkosten reduziert werden, wodurch die Abfrage der Modelle schneller und auf weniger {Hardware} möglich wird. In der Praxis floppt das Coaching zwischen Gopher und Chinchilla sind gleich, die Kosten für die Verwendung von Chinchilla sind wesentlich geringer und die Leistung ist besser. Möglicherweise sind weitere einfache Optimierungen möglich, die weiterhin große Gewinne bringen können.