Forscher von Microsoft und der UC Santa Barbara schlagen LONGMEM vor: Ein KI-Framework, das es LLMs ermöglicht, sich lange Geschichte zu merken

0
23


Große Sprachmodelle (LLMs) haben den Stand der Technik bei verschiedenen Verständnis- und Generierungsaufgaben erheblich verbessert und die Verarbeitung natürlicher Sprache revolutioniert. Die meisten LLMs profitieren von der selbstüberwachten Schulung großer Korpora, indem sie Informationen aus einem lokalen Kontext fester Größe sammeln und neue Fähigkeiten zeigen, einschließlich Zero-Shot-Prompting, In-Context-Lernen und Chain-of-Thought (CoT)-Argumentation. Die Einschränkung der Eingabelänge aktueller LLMs verhindert eine Verallgemeinerung auf reale Anwendungen, wie etwa die erweiterte horizontale Planung, bei der die Fähigkeit, langes Materials über eine Sitzung fester Größe hinaus zu verarbeiten, von entscheidender Bedeutung ist.

Die einfachste Lösung für das Längenbegrenzungsproblem besteht darin, die Länge des Eingabekontexts einfach zu vergrößern. Für eine verbesserte gegenseitige Abhängigkeit über große Entfernungen erhöht GPT-3 beispielsweise die Eingabelänge von 1.000 GPT-2 auf 2.000 Token. Die kontextdichte dichte Aufmerksamkeit wird jedoch durch die quadratische Rechenkomplexität der Transformer-Selbstaufmerksamkeit stark eingeschränkt, und diese Technik erfordert häufig von Anfang an ein umfangreiches rechentechnisches Coaching. Ein weiterer neuer Forschungsbereich, der immer noch größtenteils eine Schulung von Anfang an erfordert, konzentriert sich auf die Schaffung kontextbezogener, spärlicher Aufmerksamkeit, um die quadratischen Kosten der Selbstaufmerksamkeit zu vermeiden.

Obwohl Memorizing Transformer (MemTRM) eine bekannte Studie ist, nähert sie sich der kontextbezogenen spärlichen Aufmerksamkeit an, indem sie sowohl kontextbezogenen Token als auch gespeicherten Token, die aus einem nicht differenzierbaren Gedächtnis für Transformers abgerufen werden, viel Aufmerksamkeit schenkt. MemTRM bietet erhebliche Ratlosigkeitsvorteile bei der Modellierung großer Bücher oder Aufsätze, indem es das resultierende Sprachmodell auf die Verarbeitung von bis zu 65.000 Token skaliert. Der Linked-Reminiscence-Ansatz von MemTRM, der ein einziges Modell zum Kodieren und Zusammenführen des Speichers für die Sprachmodellierung verwendet, stellt das Downside der Speicherveraltung während des Trainings dar. Mit anderen Worten: Bei zwischengespeicherten früheren Darstellungen im Speicher kann es zu Verteilungsänderungen gegenüber denen des neuesten Modells kommen, wenn die Modellparameter geändert werden, was den Einsatz von Speichererweiterung reduziert.

In diesem Artikel schlagen Autoren von UCSB und Microsoft Analysis das LONGMEM-Framework vor, das es Sprachmodellen ermöglicht, langen vorherigen Kontext oder Wissen in der nicht differenzierbaren Speicherbank zwischenzuspeichern und diese über ein entkoppeltes Speichermodul zu nutzen, um das Downside der Speicherveraltung zu lösen . Sie erstellen ein revolutionäres Residual-Aspect-Netzwerk (SideNet), um einen entkoppelten Speicher zu erreichen. Ein eingefrorenes Spine-LLM wird verwendet, um die gepaarten Aufmerksamkeitsschlüssel und -werte aus dem vorherigen Kontext in die Speicherbank zu extrahieren. Die resultierende Aufmerksamkeitsabfrage der aktuellen Eingabe wird in der speichererweiterten Schicht des SideNet verwendet, um auf zwischengespeicherte Schlüssel und Werte für frühere Kontexte zuzugreifen. Die damit verbundenen Gedächtniserweiterungen werden dann über einen gemeinsamen Aufmerksamkeitsprozess zum Erlernen verborgener Zustände verschmolzen.

Ein besserer Wissenstransfer aus dem vorab trainierten Spine-LLM wird durch neu aufgebaute netzwerkübergreifende Restverbindungen zwischen dem SideNet und dem eingefrorenen Spine-LLM ermöglicht. Das vorab trainierte LLM kann so modifiziert werden, dass es Langkontextspeicher nutzt, indem das verbleibende SideNet wiederholt trainiert wird, um speichererweiterten Langkontext zu extrahieren und zu verschmelzen. Das entkoppelte Speichersystem bietet zwei Hauptvorteile. Erstens isolieren das entkoppelte eingefrorene Spine-LLM und SideNet in ihrer vorgeschlagenen Architektur den Speicherabruf und die Fusion von der Codierung früherer Eingaben in den Speicher.

Dadurch wird das Downside der Speicherveraltung effizient angegangen, da der Spine-LLM nur als Encoder für Langkontextwissen dient. Im Gegensatz dazu dient das verbleibende SideNet als Speicherabrufer und -leser. Zweitens ist es rechenineffizient und leidet unter dem katastrophalen Vergessen, das LLM direkt durch Speichererweiterungen zu ändern. LONGMEM ermöglicht nicht nur den Zugriff auf zuvor erlerntes Wissen, sondern kann auch verheerendes Vergessen verhindern, da das Spine-LLM während der effektiven speichererweiterten Anpassungsphase eingefroren ist. Abhängig von den nachfolgenden Aktivitäten kann LONGMEM verschiedene Arten von Langtexten und Informationen in die Speicherbank eingeben.

Sie konzentrieren sich auf zwei anschauliche Beispiele: gedächtniserweitertes In-Context-Lernen mit Tausenden von aufgabenrelevanten Demonstrationsbeispielen und Sprachmodellierung mit Buchkontexten in voller Länge. Sie bewerten, wie intestine das vorgeschlagene LONGMEM bei verschiedenen Modellierungsaufgaben für Langtextsprachen und beim gedächtniserweiterten In-Context-Lernen zum Sprachverständnis funktioniert. Experimentellen Erkenntnissen zufolge übertrifft ihr Modell regelmäßig die starken Basislinien hinsichtlich seiner Fähigkeit zur Langtextmodellierung und zum Lernen im Kontext. Ihr Ansatz erhöht die Fähigkeit von LLM, Sprache mit langem Kontext darzustellen, erheblich um -1,38 bis -1,62 Ratlosigkeit über verschiedene Längenaufteilungen des Gutenberg-2022-Korpus.

Überraschenderweise übertrifft ihr Modell die derzeit starken X-Former-Basislinien bei weitem und erreicht die hochmoderne Leistung von 40,5 % Identifikationsgenauigkeit bei ChapterBreak, einem schwierigen Benchmark für die Modellierung mit langem Kontext. Schließlich bietet LONGMEM im Vergleich zu MemTRM und Baselines ohne Speichererweiterung starke Vorteile beim kontextbezogenen Lernen bei häufigen NLU-Aufgaben.


Besuche die Papier Und Github-Link. Vergessen Sie nicht, mitzumachen unser 24k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com

🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an


Aneesh Tickoo ist Beratungspraktikantin bei MarktechPost. Derzeit absolviert er seinen Bachelor-Abschluss in Datenwissenschaft und künstlicher Intelligenz am Indian Institute of Know-how (IIT) in Bhilai. Die meiste Zeit verbringt er mit der Arbeit an Projekten, die darauf abzielen, die Leistungsfähigkeit des maschinellen Lernens zu nutzen. Sein Forschungsinteresse gilt der Bildverarbeitung und er ist leidenschaftlich daran interessiert, Lösungen dafür zu entwickeln. Er liebt es, mit Menschen in Kontakt zu treten und an interessanten Projekten mitzuarbeiten.




Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here