Große Sprachmodelle machen mit dem großen Erfolg der generativen künstlichen Intelligenz in den letzten Monaten rasante Fortschritte. Diese Modelle tragen zu einigen bemerkenswerten wirtschaftlichen und gesellschaftlichen Veränderungen bei. Das beste Beispiel hierfür ist das bekannte, von OpenAI entwickelte ChatGPT, das seit seiner Veröffentlichung Millionen von Benutzern hat, wobei die Zahl exponentiell, wenn nicht sogar gleich, ansteigt. Dieser auf Pure Language Processing (NLP) und Pure Language Understanding (NLU) basierende Chatbot ermöglicht es Benutzern, wie Menschen aussagekräftige Texte zu generieren. Es beantwortet sinnvoll Fragen, fasst lange Absätze zusammen, vervollständigt Codes und E-Mails usw. Andere LLMs wie PaLM, Chinchilla, BERT usw. haben ebenfalls großartige Leistungen im Bereich der KI gezeigt.
Die Feinabstimmung vorab trainierter Sprachmodelle ist für viele sprachbezogene Aufgaben ein beliebter Ansatz. Durch die Feinabstimmung können sich diese Modelle an spezielle Bereiche anpassen, menschliche Anweisungen integrieren und auf individuelle Vorlieben eingehen. Grundsätzlich werden die Parameter eines bereits trainierten LLM mithilfe eines kleineren und domänenspezifischen Datensatzes angepasst. Wenn Sprachmodelle mit mehr Parametern skaliert werden, wird die Feinabstimmung für den Prozess der Berechnung von Gradienten während der Backpropagation rechenintensiv und speicherintensiv. Aufgrund der Einbindung von Caching-Aktivierungen, Gradienten und der Speicherung des Gradientenverlaufs ist die Speichernutzung deutlich höher als für die Inferenz erforderlich.
Kürzlich hat ein Forscherteam der Princeton College eine Lösung für das Gedächtnisproblem vorgestellt. MeZO genannt, ein speichereffizienter Optimierer nullter Ordnung, ist dies eine Adaption der traditionellen ZO-SGD-Methode, die Gradienten nur anhand von Unterschieden in den Verlustwerten schätzt und direkt vor Ort arbeitet, was eine Feinabstimmung von Sprachmodellen mit dem gleichen Speicherbedarf wie ermöglicht Inferenz. Das Crew hat sich in MeZO auf Ansätze nullter Ordnung konzentriert, da ZO-Methoden Gradienten mit nur zwei Vorwärtsdurchgängen schätzen können, was sie speichereffizient macht.
Der MeZO-Algorithmus wurde speziell zur Optimierung großer Sprachmodelle mit Milliarden von Parametern entwickelt. Einige der wichtigsten vom Crew erwähnten Beiträge sind:
- MeZO wurde durch Modifizierung der ZO-SGD-Methode und einiger Variationen entwickelt, um auf Modellen beliebiger Größe mit kaum Speicheraufwand direkt ausgeführt zu werden.
- Es hat sich gezeigt, dass MeZO mit PEFT und umfassenden Parameteroptimierungen wie LoRA und Präfixoptimierung kompatibel ist.
- MeZO kann nicht differenzierbare Ziele wie Genauigkeit oder F1-Ergebnis verbessern und dabei immer noch die gleiche Menge an Speicher wie die Inferenz nutzen.
- Ein angemessenes Vortraining stellt sicher, dass die MeZO-Optimierungsrate professional Schritt und die globale Konvergenzrate von einer bestimmten Bedingungszahl der Landschaft abhängen, d. h. vom effektiven lokalen Rang und nicht von einer großen Anzahl von Parametern, was im Gegensatz zu den vorherigen ZO-Untergrenzen steht Dies bedeutet, dass die Konvergenzrate je nach Anzahl der Parameter langsam sein kann.
- Experimente deuten darauf hin, dass das Modell bei Checks mit verschiedenen Modelltypen wie maskiertem LM und autoregressivem LM von 350M auf 66B skaliert und nachgelagerte Aufgaben wie Klassifizierung, A number of-Alternative und Generierung erfüllt.
- MeZO übertrifft Zero-Shot, ICL und lineare Sondierung in Experimenten und schneidet bei 7 von 11 Checks mit OPT-13B sogar besser oder ähnlich intestine ab wie die Feinabstimmung, obwohl es etwa 12 weniger Speicher verbraucht als RoBERTa-große oder normale Feinabstimmung. bzw.
Bei der Evaluierung battle MeZO in der Lage, ein 30-Milliarden-Parameter-Modell mit einer einzigen Nvidia A100 80-GB-GPU zu trainieren, während Backpropagation nur ein 2,7-Milliarden-Parameter-LM innerhalb der gleichen Speicherbeschränkungen trainieren kann. Zusammenfassend lässt sich sagen, dass MeZO ein speichereffizienter Optimierer nullter Ordnung ist, der große Sprachmodelle effektiv optimieren kann.
Besuche die Papier Und Github. Vergessen Sie nicht, mitzumachen unser 23k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com
🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an
Tanya Malhotra studiert im letzten Jahr an der College of Petroleum & Vitality Research in Dehradun und studiert BTech in Informatik mit Spezialisierung auf künstliche Intelligenz und maschinelles Lernen.
Sie ist eine Information-Science-Enthusiastin mit gutem analytischem und kritischem Denken sowie einem großen Interesse daran, sich neue Fähigkeiten anzueignen, Gruppen zu leiten und die Arbeit organisiert zu verwalten.