Lernen Sie LOMO (LOw-Memory Optimization) kennen: einen neuen KI-Optimierer, der die Gradientenberechnung und die Parameteraktualisierung in einem Schritt zusammenführt, um die Speichernutzung zu reduzieren

0
25


Große Sprachmodelle haben die Verarbeitung natürlicher Sprache verändert, indem sie erstaunliche Fähigkeiten wie Emergenz und Grokking zur Schau gestellt und die Modellgröße kontinuierlich vergrößert haben. Die Messlatte für die NLP-Forschung wird höher gelegt, indem diese Modelle mit Milliarden von Parametern trainiert werden, beispielsweise solchen mit 30B bis 175B Parametern. Für kleine Labore und Unternehmen ist es eine Herausforderung, sich an diesem Forschungsfeld zu beteiligen, da die Optimierung von LLMs häufig teure GPU-Ressourcen erfordert, beispielsweise 880-GB-Maschinen. In jüngster Zeit wurde die ressourcenbeschränkte LLM-Optimierung durch Parameter-effiziente Feinabstimmungstechniken wie LoRA und Präfix-Tuning ermöglicht.

Obwohl die vollständige Parameter-Feinabstimmung als effektivere Strategie angesehen wird als die Parameter-effiziente Feinabstimmung, müssen beide Techniken eine praktikable Lösung bieten. Sie wollen Methoden untersuchen, um unter den gegebenen Umständen und mit begrenzten Ressourcen eine umfassende Parameter-Feinabstimmung durchzuführen. Sie untersuchen Aktivierung, Optimiererzustände, Gradiententensor und Parameter – die vier Merkmale der Speichernutzung in LLMs – und optimieren den Trainingsprozess auf drei Arten: 1) Sie bewerten die algorithmische Funktionalität eines Optimierers neu und entdecken, dass SGD ein geeigneter Ersatz dafür ist Feinabstimmung kompletter Parameter für LLMs. Da SGD keine Zwischenstufen verwaltet, können wir den gesamten Teil der Optimiererzustände löschen. 2) Ihr vorgeschlagener Optimierer LOMO, wie in Abbildung 1 dargestellt, verringert den Speicherverbrauch von Gradiententensoren auf O, was dem Speicherverbrauch des größten Gradiententensors entspricht. 3) Sie integrieren Gradientennormalisierung und Verlustskalierung und schalten bestimmte Berechnungen während des Trainings auf volle Präzision um, um das Combine-Precision-Coaching mit LOMO zu stabilisieren. Ihre Methode kombiniert die gleiche Menge an Speicher wie Parameter, Aktivierung und den größten Gradiententensor.

Sie erhöhen den Speicherverbrauch der vollständigen Parameter-Feinabstimmung erheblich und reduzieren ihn auf die Ebene der Inferenz. Dies liegt daran, dass der Vorwärtsprozess allein nicht weniger Speicher benötigen sollte als der Rückwärtsprozess. Sie stellen insbesondere sicher, dass die Feinabstimmungsfunktion bei der Verwendung von LOMO nicht beeinträchtigt wird, um Speicher zu sparen, da der Parameteraktualisierungsprozess dem von SGD ähnelt. Forscher der Fudan-Universität demonstrieren, wie der Einsatz von LOMO es ermöglicht, ein 65B-Modell mit nur 8 RTX 3090-GPUs erfolgreich zu trainieren, indem sie die Speicher- und Durchsatzfähigkeiten von LOMO empirisch bewerten. Darüber hinaus verwenden sie LOMO, um die gesamten Parameter von LLMs in der SuperGLUE-Datensatzsammlung anzupassen, um die nachgelagerte Leistung ihres vorgeschlagenen Ansatzes zu validieren. Die empirischen Ergebnisse zeigen, wie intestine LOMO bei der Optimierung von LLMs mit vielen Parametern funktioniert.

https://arxiv.org/pdf/2306.09782.pdf

Dies sind ihre Gesamtbeiträge:

• Sie bieten eine theoretische Studie an, die darauf hindeutet, dass SGD alle Parameter der LLMs erfolgreich anpassen kann. Es ist möglich, dass die Hindernisse, die einst die breite Nutzung von SGD verhinderten, bei der Optimierung von LLMs nicht mehr so ​​gravierend sind.

• Sie schlagen LOMO (Low-Reminiscence-Optimierung) vor, um die GPU-Speicherauslastung drastisch zu reduzieren und gleichzeitig den Prozess der Feinabstimmung aufrechtzuerhalten.

• Sie demonstrieren empirisch die Effizienz von LOMO bei der Optimierung von LLMs unter ressourcenbeschränkten Umständen, indem sie die Speichernutzung und die Durchsatzleistung sorgfältig analysieren. Leistungsbeurteilungen nachgelagerter Tätigkeiten liefern hierfür eine zusätzliche Begründung.

Die Code-Implementierung ist auf GitHub verfügbar.


Besuche die Papier Und Github-Link. Vergessen Sie nicht, mitzumachen unser 25k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com


Empfohlene Instruments:

🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an


Aneesh Tickoo ist Beratungspraktikantin bei MarktechPost. Derzeit absolviert er seinen Bachelor-Abschluss in Datenwissenschaft und künstlicher Intelligenz am Indian Institute of Expertise (IIT) in Bhilai. Die meiste Zeit verbringt er mit der Arbeit an Projekten, die darauf abzielen, die Leistungsfähigkeit des maschinellen Lernens zu nutzen. Sein Forschungsinteresse gilt der Bildverarbeitung und er ist leidenschaftlich daran interessiert, Lösungen dafür zu entwickeln. Er liebt es, mit Menschen in Kontakt zu treten und an interessanten Projekten mitzuarbeiten.




Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here