Große Sprachmodelle haben bei einer Vielzahl von Aufgaben eine bemerkenswerte Leistung gezeigt. Von der Erstellung einzigartiger und kreativer Inhalte über Fragenfragen bis hin zur Übersetzung von Sprachen und der Zusammenfassung von Textabsätzen ist es LLMs gelungen, Menschen nachzuahmen. Einige bekannte LLMs wie GPT, BERT und PaLM haben Schlagzeilen gemacht, weil sie Anweisungen genau befolgen und auf große Mengen hochwertiger Daten zugreifen. Modelle wie GPT4 und PaLM sind nicht Open Supply, was verhindert, dass jemand ihre Architekturen und Trainingsdaten versteht. Andererseits bietet der Open-Supply-Charakter von LLMs wie Pythia, LLaMA und Flan-T5 Forschern die Möglichkeit, die Modelle anhand benutzerdefinierter Befehlsdatensätze zu verfeinern und zu verbessern. Dies ermöglicht die Entwicklung kleinerer und effizienterer LLMs wie Alpaca, Vicuna, OpenAssistant und MPT.
Es gibt kein einziges Open-Supply-LLM, das den Markt anführt, und die besten LLMs für verschiedene Beispiele können sich stark voneinander unterscheiden. Um kontinuierlich verbesserte Antworten für jede Eingabe zu liefern, ist es daher wichtig, diese LLMs dynamisch zusammenzufassen. Vorurteile, Fehler und Unsicherheiten können durch die Integration der unterschiedlichen Beiträge verschiedener LLMs reduziert werden, was zu Ergebnissen führt, die den menschlichen Präferenzen besser entsprechen. Um dieses Drawback anzugehen, haben Forscher des Allen Institute for Synthetic Intelligence, der College of Southern California und der Zhejiang College LLM-BLENDER vorgeschlagen, ein Ensembling-Framework, das durch die Nutzung der vielen Vorteile mehrerer Open-Supply-Modelle großer Sprachen stets eine überlegene Leistung erzielt.
LLM-BLENDER besteht aus zwei Modulen – PAIRRANKER und GENFUSER. Diese Module zeigen, dass das optimale LLM für verschiedene Beispiele erheblich variieren kann. PAIRRANKER, das erste Modul, wurde entwickelt, um kleinste Variationen zwischen potenziellen Ausgaben zu identifizieren. Es verwendet eine fortschrittliche paarweise Vergleichstechnik, bei der der Originaltext und zwei Kandidatenausgaben verschiedener LLMs als Eingaben dienen. Um die Eingabe und das Kandidatenpaar gemeinsam zu kodieren, nutzt es Cross-Consideration-Encoder wie RoBERTa, wobei PAIRRANKER anhand dieser Kodierung die Qualität der beiden Kandidaten bestimmen kann.
Das zweite Modul, GENFUSER, konzentriert sich auf die Zusammenführung der Spitzenkandidaten, um einen verbesserten Output zu generieren. Es nutzt die Vorteile der ausgewählten Kandidaten optimum aus und minimiert gleichzeitig deren Nachteile. GENFUSER zielt darauf ab, durch die Zusammenführung der Ergebnisse verschiedener LLMs einen Output zu entwickeln, der dem Output eines beliebigen LLM überlegen ist.
Zur Auswertung hat das Staff einen Benchmark-Datensatz namens MixInstruct bereitgestellt, der paarweise Oracle-Vergleiche einbezieht und verschiedene Befehlsdatensätze kombiniert. Dieser Datensatz verwendet 11 beliebte Open-Supply-LLMs, um mehrere Kandidaten für jede Eingabe bei verschiedenen Aufgaben zur Befolgung von Anweisungen zu generieren. Es umfasst Trainings-, Validierungs- und Testbeispiele mit Oracle-Vergleichen zur automatischen Auswertung. Diese Oracle-Vergleiche wurden verwendet, um den Kandidatenergebnissen ein Floor-Fact-Rating zu geben, das die Bewertung der Leistung von LLM-BLENDER und anderen Benchmark-Techniken ermöglicht.
Die experimentellen Ergebnisse haben gezeigt, dass LLM-BLENDER bei einer Reihe von Bewertungsparametern viel besser abschneidet als einzelne LLMs und Basistechniken. Es stellt eine beträchtliche Leistungslücke fest und zeigt, dass die Verwendung der LLM-BLENDER-Ensembling-Methode im Vergleich zur Verwendung einer einzelnen LLM- oder Baseline-Methode zu einer qualitativ hochwertigeren Ausgabe führt. Die Auswahl von PAIRRANKER hat einzelne LLM-Modelle aufgrund ihrer besseren Leistung bei referenzbasierten Metriken und GPT-Rank übertroffen. Durch effiziente Fusion verbessert GENFUSER die Antwortqualität erheblich, indem es die Prime-Picks von PAIRRANKER nutzt.
LLM-BLENDER hat auch einzelne LLMs wie Vicuna übertroffen und somit großes Potenzial für die Verbesserung des LLM-Einsatzes und der LLM-Forschung durch Ensemble-Lernen gezeigt.
Besuche die Papier, Projekt, Und Github. Vergessen Sie nicht, mitzumachen unser 24k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com
Empfohlene Instruments Aus AI Tools Club
🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an
Tanya Malhotra studiert im letzten Jahr an der College of Petroleum & Power Research in Dehradun und studiert BTech in Informatik mit Spezialisierung auf künstliche Intelligenz und maschinelles Lernen.
Sie ist eine Knowledge-Science-Enthusiastin mit gutem analytischem und kritischem Denken sowie einem großen Interesse daran, sich neue Fähigkeiten anzueignen, Gruppen zu leiten und die Arbeit organisiert zu verwalten.