Giant Language Fashions (LLMs) haben in jüngster Zeit unglaubliche Fähigkeiten bewiesen. Diese Modelle lernen aus riesigen Datenmengen und führen Aufgaben mit erstaunlichen Anwendungen aus, darunter die Generierung von menschenähnlichen Textinhalten, die Beantwortung von Fragen, die Vervollständigung von Code, die Zusammenfassung von Texten, die Erstellung hochqualifizierter virtueller Assistenten und so weiter. Obwohl LLMs eine hervorragende Leistung erbracht haben, gibt es nun einen Wandel hin zur Entwicklung kleinerer Modelle, die auf noch mehr Daten trainiert werden. Kleinere Modelle erfordern im Vergleich zu größeren Modellen weniger Rechenressourcen. Beispielsweise liefert das LLaMA-Modell mit 7 Milliarden Parametern und trainiert auf 1 Billion Token Ergebnisse, die 25-mal besser sind als die des viel größeren GPT-3-Modells, obwohl es 25-mal kleiner ist.
Das Komprimieren der LLMs, damit sie in Geräte mit begrenztem Speicher, Laptops und Mobiltelefone passen, bringt Herausforderungen mit sich, wie z. B. Schwierigkeiten bei der Aufrechterhaltung der generativen Qualität, Verschlechterung der Genauigkeit bei 3- bis 4-Bit-Quantisierungstechniken in Modellen mit 1 bis 10 Milliarden Parametern usw. Die Einschränkungen sind auf die sequentielle Natur der LLM-Generierung zurückzuführen, bei der sich kleine Fehler summieren und zu ernsthaft beschädigten Ausgaben führen können. Um dies zu vermeiden, ist es wichtig, Quantisierungsmethoden mit geringer Bitbreite zu entwickeln, die die Vorhersageleistung im Vergleich zum Authentic nicht beeinträchtigen 16-Bit-Modell.
Um die Genauigkeitseinschränkungen zu überwinden, hat ein Forscherteam die Sparse-Quantized Illustration (SpQR) eingeführt, ein komprimiertes Format und eine Quantisierungstechnik. Dieses hybride, spärlich quantisierte Format ermöglicht eine nahezu verlustfreie Komprimierung präziser vorab trainierter LLMs auf 3–4 Bit professional Parameter. Es ist die erste Gewichtsquantisierungstechnik, die solche Komprimierungsverhältnisse mit einem Finish-to-Finish-Genauigkeitsfehler von weniger als 1 % im Vergleich zur dichten Basislinie erreicht, bewertet durch Perplexity.
SpQR nutzt zwei Möglichkeiten. Zunächst werden Ausreißergewichte lokalisiert, die bei der Quantisierung übermäßig hohe Fehler ergeben. Diese Gewichte werden mit hoher Präzision gespeichert, während die übrigen Gewichte in einem viel niedrigeren Format, typischerweise 3 Bit, gespeichert werden. Zweitens verwendet SpQR eine Variante der gruppierten Quantisierung mit einer sehr kleinen Gruppengröße, beispielsweise 16 zusammenhängenden Elementen, und sogar die Quantisierungsskalen selbst können in einem 3-Bit-Format dargestellt werden.
Für die Konvertierung eines vorab trainierten LLM in das SpQR-Format hat das Workforce eine erweiterte Model des Submit-Coaching-Quantisierungsansatzes (PTQ) übernommen, der, inspiriert von GPTQ, Kalibrierungsdaten durch das unkomprimierte Modell leitet. SpQR ermöglicht die Ausführung von 33 Milliarden Parameter-LLMs auf einer einzigen 24-GB-Client-GPU ohne Leistungseinbußen und bietet gleichzeitig eine Geschwindigkeitssteigerung von 15 % bei 4,75 Bit. Dadurch werden leistungsstarke LLMs für Verbraucher zugänglich, ohne dass sie unter Leistungseinbußen leiden.
SpQR bietet effektive Methoden zum Kodieren und Dekodieren von Gewichten in ihr Format zur Laufzeit. Diese Algorithmen wurden entwickelt, um die Vorteile der SpQR-Speicherkomprimierung zu maximieren. Für SpQR wurde außerdem ein leistungsstarker GPU-Inferenzalgorithmus entwickelt, der eine schnellere Inferenz als 16-Bit-Basislinien ermöglicht und gleichzeitig ein vergleichbares Maß an Genauigkeit beibehält. Aus diesem Grund bietet SpQR Speicherkomprimierungsvorteile von mehr als dem Vierfachen, was es sehr effektiv für den Einsatz auf Geräten mit begrenztem Speicher macht. Zusammenfassend lässt sich sagen, dass SpQR eine vielversprechende Technik zu sein scheint, da es die Herausforderung des Genauigkeitsverlusts, der mit der Low-Bit-Quantisierung in LLMs verbunden ist, effizient angeht.
Besuche die Papier Und Github. Vergessen Sie nicht, mitzumachen unser 23k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com
🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an
Tanya Malhotra studiert im letzten Jahr an der College of Petroleum & Vitality Research in Dehradun und studiert BTech in Informatik mit Spezialisierung auf künstliche Intelligenz und maschinelles Lernen.
Sie ist eine Information-Science-Enthusiastin mit gutem analytischem und kritischem Denken sowie einem großen Interesse daran, sich neue Fähigkeiten anzueignen, Gruppen zu leiten und die Arbeit organisiert zu verwalten.