Erschließung des KI-Potenzials mit MINILLM: Ein tiefer Einblick in die Wissensdestillation von größeren Sprachmodellen zu kleineren Gegenstücken

0
25


Die Wissensdestillation, bei der ein kleines Schülermodell unter der Aufsicht eines großen Lehrermodells trainiert wird, ist eine typische Strategie, um den übermäßigen Bedarf an Rechenressourcen aufgrund der schnellen Entwicklung großer Sprachmodelle zu verringern. Black-Field-KD, bei dem nur die Vorhersagen des Lehrers zugänglich sind, und White-Field-KD, bei dem die Parameter des Lehrers verwendet werden, sind die beiden Arten von KD, die häufig verwendet werden. Black-Field-KD hat kürzlich ermutigende Ergebnisse bei der Optimierung kleiner Modelle auf den von LLM-APIs erzeugten Immediate-Response-Paaren gezeigt. White-Field-KD wird für Forschungsgemeinschaften und Industriesektoren immer hilfreicher, wenn mehr Open-Supply-LLMs entwickelt werden, da Studentenmodelle bessere Signale von White-Field-Lehrermodellen erhalten, was möglicherweise zu einer verbesserten Leistung führt.

Während White-Field-KD für generative LLMs noch nicht untersucht wurde, wird es hauptsächlich für kleine (1B-Parameter) Sprachverständnismodelle untersucht. In diesem Artikel befassen sie sich mit der White-Field-KD von LLMs. Sie behaupten, dass die gemeinsame KD für LLMs, die Aufgaben generativ ausführen, besser sein könnte. Normal-KD-Ziele (einschließlich mehrerer Varianten für Modelle auf Sequenzebene) minimieren im Wesentlichen die angenäherte Vorwärts-Kullback-Leibler-Divergenz (KLD) zwischen der Lehrer- und der Schülerverteilung, bekannt als KL, und zwingen p dazu, alle Modi von q angesichts der Lehrerverteilung abzudecken p(y|x) und die Studentenverteilung q(y|x)parametrisiert durch. KL eignet sich intestine für Textklassifizierungsprobleme, da der Ausgaberaum häufig Klassen mit endlichen Zahlen enthält, wodurch sichergestellt wird, dass sowohl p(y|x) als auch q(y|x) eine kleine Anzahl von Modi haben.

Bei Problemen bei der Generierung von offenem Textual content, bei denen die Ausgaberäume weitaus komplizierter sind, kann p(y|x) jedoch einen wesentlich größeren Bereich von Modi darstellen als q(y|x). Während der Freilaufgenerierung kann die Minimierung der Vorwärts-KLD dazu führen, dass q den Leerbereichen von p eine übermäßig hohe Wahrscheinlichkeit verleiht und höchst unwahrscheinliche Stichproben unter p erzeugt. Um dieses Downside zu lösen, schlagen sie vor, den umgekehrten KLD, KL, der häufig bei Laptop Imaginative and prescient und Reinforcement Studying eingesetzt wird, zu minimieren. Ein Pilotexperiment zeigt, wie eine Unterschätzung von KL dazu führt, dass q nach den Hauptmoden von p sucht und seinen leeren Bereichen eine geringe Wahrscheinlichkeit gibt.

Dies bedeutet, dass das Studentenmodell bei der Sprachgenerierung von LLMs das Erlernen zu vieler Lengthy-Tail-Versionen der Lehrerverteilung vermeidet und sich auf die Genauigkeit der erzeugten Antwort konzentriert, was in realen Situationen, in denen Ehrlichkeit und Zuverlässigkeit erforderlich sind, von entscheidender Bedeutung ist. Sie generieren den Gradienten des Ziels mit Coverage Gradient, um min KL zu optimieren. Aktuelle Studien haben die Wirksamkeit der Richtlinienoptimierung bei der Optimierung von PLMs gezeigt. Sie stellten jedoch auch fest, dass das Coaching des Modells immer noch unter übermäßiger Variation, Belohnungs-Hacking und Generationslängenverzerrungen leidet. Dazu gehören daher:

  1. Einstufige Regularisierung zur Verringerung der Variation.
  2. Gemischte Probenahme durch den Lehrer, um das Hacken von Belohnungen zu verringern.
  3. Längennormalisierung zur Reduzierung der Längenverzerrung.

Im Rahmen der Anweisungsfolge, die ein breites Spektrum an NLP-Aufgaben umfasst, bieten Forscher der CoAI Group, der Tsinghua College und Microsoft Analysis eine neuartige Technik namens MINILLM an, die sie dann auf mehrere generative Sprachmodelle mit Parametergrößen im Bereich von 120 Millionen anwenden bis 13B. Zur Bewertung werden fünf Anweisungsfolge-Datensätze sowie Rouge-L- und GPT-4-Suggestions verwendet. Ihre Checks zeigen, dass MINILM erfolgreich von 120-Millionen- auf 13-B-Modelle skaliert und die Foundation-Normal-KD-Modelle in allen Datensätzen durchweg übertrifft (siehe Abbildung 1). Weitere Untersuchungen zeigen, dass MINILLM längere Antworten mit mehr Abwechslung besser produzieren kann, die Belichtungsverzerrung verringert und eine bessere Kalibrierung aufweist. Die Modelle sind auf GitHub verfügbar.

Abbildung 1 zeigt einen Vergleich des durchschnittlichen GPT-4-Suggestions-Scores ihrer Bewertungssätze zwischen MINILLM und dem KD auf Sequenzebene (SeqKD). GPT-2-1.5B ist hyperlinks zu sehen, wobei GPT-2 125M, 340M und 760M als Pupillen fungieren. Mitte: GPT-2 760M, 1.5B und GPT-Neo 2.7B sind die Schüler, während GPT-J 6B der Ausbilder ist. OPT 13B ist rechts zu sehen, mit OPT 1.3B, 2.7B und 6.7B als Schüler.

Besuche die Papier Und Github-Link. Vergessen Sie nicht, mitzumachen unser 24k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com


🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an


Aneesh Tickoo ist Beratungspraktikantin bei MarktechPost. Derzeit absolviert er seinen Bachelor-Abschluss in Datenwissenschaft und künstlicher Intelligenz am Indian Institute of Expertise (IIT) in Bhilai. Die meiste Zeit verbringt er mit der Arbeit an Projekten, die darauf abzielen, die Leistungsfähigkeit des maschinellen Lernens zu nutzen. Sein Forschungsinteresse gilt der Bildverarbeitung und er ist leidenschaftlich daran interessiert, Lösungen dafür zu entwickeln. Er liebt es, mit Menschen in Kontakt zu treten und an interessanten Projekten mitzuarbeiten.




Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here