Mit den jüngsten technologischen Durchbrüchen in der künstlichen Intelligenz haben sich Giant Language Fashions, kurz LLMs, immer mehr durchgesetzt. In den letzten Jahren haben Forscher rasche Fortschritte bei der Lösung mehrerer komplexer sprachbezogener Aufgaben gemacht, indem sie diese Modelle auf riesigen Datenmengen trainierten, um komplizierte Sprachmuster zu verstehen, kohärente Antworten zu generieren usw. Ein Forschungsbereich, der besonders gewonnen hat Das Interesse von Forschern und Entwicklern gilt der Anwendung von LLMs, wenn es darum geht, lange Inhalte so zu verarbeiten, dass sie breitere Kontexte einbeziehen. Einige Beispiele für diese Aufgaben reichen von relativ einfachen Aufgaben wie Textzusammenfassung und Codegenerierung bis hin zu komplexeren Problemstellungen wie Proteinstrukturvorhersage und Informationsabruf. Lange Textsequenzen bestehen aus Informationen in unterschiedlichen Formen, wie Absätzen, Tabellen, Bildern usw.; Daher müssen LLMs darin geschult werden, solche Elemente zu verarbeiten und zu verstehen. Darüber hinaus können LLMs durch die effektive Berücksichtigung weit entfernter struktureller Abhängigkeiten die Verbindungen zwischen verschiedenen Teilen des Textes identifizieren und die relevantesten Informationen extrahieren. Der Zugang zu einem breiteren Wissensspektrum ermöglicht es LLMs daher, genauere und kontextbezogenere Antworten auf Benutzeranfragen zu geben.
Doch trotz der zahlreichen potenziellen Anwendungsfälle wurden die meisten verfügbaren Open-Supply-LLMs, von Metas LLaMA bis hin zu den MPT-LLM-Modellen von MosaicML, auf Sequenzen mit maximal 2K-Tokens trainiert. Diese Einschränkung stellt eine erhebliche Herausforderung dar, wenn es um die Modellierung längerer Sequenzen geht. Darüber hinaus haben frühere Untersuchungen zur Modellskalierung gezeigt, dass kleinere Modelle, die auf einer größeren Anzahl von Token trainiert werden, größere Modelle übertreffen, wenn ein festes Rechenbudget gegeben wird. Inspiriert durch das vorliegende Drawback und die aktuellen Fortschritte erzielte Salesforce Analysis bahnbrechende Erfolge mit der Einführung von XGen-7B, einer Reihe von 7B-LLMs, die auf 8K-Sequenzlänge für 1,5 Billionen Token trainiert wurden. Die Modellreihe umfasst XGen-7B-4K-Basis (mit Unterstützung für 4K-Sequenzlänge), XGen-7B-8K-Basis (mit Unterstützung für 8K-Sequenzlänge) und XGen-7B-8k-Inst Die Feinabstimmung erfolgte anhand öffentlich zugänglicher Lehrdaten (die nur zu Forschungszwecken freigegeben wurden). Das auffällige Merkmal dieser LLMs ist, dass XGen bei Normal-NLP-Benchmarks vergleichbare oder bessere Ergebnisse erzielt, wenn es mit anderen hochmodernen LLMs ähnlicher Größe wie MPT, Falcon, LLaMA usw. verglichen wird.
Die in dieser Studie verwendeten XGen-7b-Modelle wurden mit der proprietären JaxFormer-Bibliothek von Salesforce trainiert, die ein effizientes Coaching von LLMs unter Verwendung von Daten- und Modellparallelität ermöglicht, die speziell für TPU-v4-{Hardware} optimiert wurden. Der Trainingsprozess folgte den Richtlinien von LLaMA und wurde durch zwei zusätzliche Untersuchungen ergänzt. Die erste Untersuchung konzentrierte sich auf das Verständnis von „Verlustspitzen“, bei denen der Verlust während des Trainings plötzlich und vorübergehend zunimmt, ohne dass eine klare zugrunde liegende Ursache vorliegt. Obwohl die Grundursache dieser Spitzen weiterhin unbekannt ist, identifizierten die Forscher Faktoren wie „sequentiell über parallele Schaltkreise“, „swish-GLU über GeLU“ und „RMS-Norm über Layer-norm“ als potenzielle Faktoren, die zur Trainingsinstabilität beitragen. Der zweite angesprochene Aspekt warfare die Sequenzlänge. Da das Coaching mit längeren Sequenzen aufgrund der quadratischen Komplexität der Selbstaufmerksamkeit einen deutlich höheren Rechenaufwand verursacht, wurde ein gestufter Trainingsansatz gewählt. Das Coaching umfasste zunächst 800B-Token mit einer Sequenzlänge von 2k-Tokens, gefolgt von 400B-Tokens mit 4k-Länge und schließlich 300B-Tokens mit 8k-Länge.
Um die Fähigkeiten des XGen-7b 8k-Modells beim Verstehen längerer Kontexte zu bewerten, führten die Forscher Bewertungen anhand von drei Hauptaufgaben durch: Generierung langer Dialoge, Textzusammenfassung und Beantwortung von Fragen. Die Forscher verwendeten das anweisungsoptimierte Modell für ihre Bewertungen hinsichtlich der Schwierigkeit der anstehenden Aufgaben. In Bezug auf die Generierung langer Dialoge verwendeten die Forscher drei Aufgaben zur Bewertung: Zusammenfassung des AMI-Conferences, ForeverDreaming und Zusammenfassung des TVMegaSite-Drehbuchs. Bei allen Kennzahlen erzielte das XGen-7B-inst-Modell im Vergleich zu mehreren anderen auf Anweisungen abgestimmten Modellen die höchsten Werte und demonstrierte damit seine überlegene Leistung.
Für die Beantwortung längerer Fragen generierten die Forscher mithilfe von ChatGPT Fragen auf der Grundlage von Wikipedia-Dokumenten zu verschiedenen Themen wie Physik, Ingenieurwesen, Geschichte und Unterhaltung sowie den entsprechenden Zusammenfassungen. Die von LLM generierten Antworten, die 256 Token lang waren, wurden mithilfe von GPT-4 basierend auf ihrer Struktur, Organisation und Relevanz für die Frage und das Quelldokument bewertet. In diesem Szenario übertraf das XGen-7B-8k-Inst-Modell die Basismodelle, die auf 2.000 Token beschränkt sind, und stellte seine überlegene Leistung unter Beweis. Im Hinblick auf die Textzusammenfassung verwendeten die Forscher zwei Datensätze aus unterschiedlichen Bereichen, insbesondere Besprechungsgespräche und Regierungsberichte, um das XGen-7b-Modell zu bewerten. Die Ergebnisse zeigten, dass das XGen-7b-Modell andere Basismodelle bei diesen Aufgaben deutlich übertraf, was auf seine überlegene Leistung auch bei der Textzusammenfassung hinweist.
Die Auswertungen zeigten, dass das XGen-7b-Modell beim Verstehen längerer Kontexte bei verschiedenen Aufgaben, einschließlich der Generierung langer Dialoge, der Beantwortung von Fragen und der Textzusammenfassung, hervorragende Leistungen erbrachte. Seine Leistung übertraf die anderer auf Anweisungen abgestimmter Modelle und Basismodelle und zeigte seine Wirksamkeit beim Verstehen und Generieren kohärenter Antworten in umfangreichen Textkontexten. Trotz seiner Wirksamkeit erkennen die Forscher jedoch eine Einschränkung des XGen-Modells an, da es nicht frei von Vorurteilen ist und das Potenzial hat, toxische Reaktionen hervorzurufen, eine Eigenschaft, die es mit vielen anderen KI-Modellen teilt. Salesforce Analysis hat seinen Code auch als Open-Supply-Lösung bereitgestellt, damit die Group seine Arbeit erkunden kann.
Besuche die SF-Blog Und Github-Link. Vergessen Sie nicht, mitzumachen unser 25k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com
Empfohlene Instruments:
🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an
Khushboo Gupta ist Beratungspraktikant bei MarktechPost. Derzeit absolviert sie ihren B.Tech am Indian Institute of Expertise (IIT) in Goa. Ihre Leidenschaft gilt den Bereichen maschinelles Lernen, Verarbeitung natürlicher Sprache und Webentwicklung. Es macht ihr Spaß, mehr über den technischen Bereich zu lernen, indem sie an verschiedenen Herausforderungen teilnimmt.