Autoregressive Modelle sind eine Klasse statistischer Modelle, die auf der Instinct basieren, dass der aktuelle Wert einer Variablen weitgehend von ihren vergangenen Werten abhängt. Mit anderen Worten: Das Modell sagt den zukünftigen Wert einer Variablen voraus, indem es eine Regression auf ihre vergangenen Werte durchführt. Eines der bekanntesten Beispiele für autoregressive Modelle ist die Klasse der GPT-Modelle, insbesondere GPT-3 und seine Varianten, die größtenteils auf der Grundlage der Vorhersage des nächsten Wortes in einer Sequenz anhand der vorherigen Wörter basieren. Indem GPT auf diese autoregressive Weise an einem großen Textkorpus trainiert wird, lernt es, die statistischen Muster, Abhängigkeiten und semantischen Beziehungen in der Sprache zu erfassen, wodurch es in die Lage versetzt wird, kontextrelevanten Textual content basierend auf der Eingabeaufforderung zu generieren. Frühere Forschungsexperimente haben jedoch gezeigt, dass kleinere Modelle oder Modelle, die so optimiert sind, dass sie weniger Zufälligkeit oder Variabilität aufweisen (dh niedrigere Erzeugungstemperaturen), dazu neigen, sich wiederholende oder fehlerhafte Ergebnisse zu erzeugen. Darüber hinaus verwenden diese Modelle in bestimmten Szenarien ihre eigenen Ausgaben als Eingaben, was oft zu Fehlern führt, die das Modell schnell aus der beabsichtigten Verteilung bringen.
Um diese Herausforderungen zu bewältigen, führte ein Forscherteam aus Stanford erste Studien durch und identifizierte zwei Haupthindernisse, die verhindern, dass autoregressive Modelle, die mit der Most-Chance-Schätzung (MLE) trainiert wurden, während der Auswertung kohärente Sequenzen erzeugen. Das erste Downside liegt im Divergenzmaß, das zur Bewertung der Diskrepanz zwischen dem Modell und der Datenverteilung verwendet wird. Da MLE Out-of-Distribution-Sequenzen (OOD) nicht berücksichtigt, kann das Verhalten des Modells bei solchen Sequenzen nicht gesteuert werden. Um dieses Downside anzugehen, entwickelten die Forscher die Idee, die χ2-Divergenz zwischen einer Kombination aus tatsächlichen Daten und den autoregressiv generierten Sequenzen zu minimieren, was im Vergleich zu MLE eine überlegene Leistung gezeigt hat. Die zweite Herausforderung entsteht, wenn das Modell einen OOD-Token ohne eine geeignete Fortsetzung erzeugt, die auf die Datenverteilung abgestimmt ist. Um dieses Downside zu beheben, führen die Forscher im Generierungsprozess eine
Mithilfe dieser Erkenntnisse aus ihren Vorstudien haben Stanford-Forscher eine neuartige Methode namens SequenceMatch entwickelt, die das Coaching autoregressiver Modelle anhand von Differenzdivergenztechniken ermöglicht und gleichzeitig eine
Die Forscher führten mehrere experimentelle Auswertungen durch, um die Leistung von GPT-2-basierten Modellen, die auf SequenceMatch feinabgestimmt wurden, mit MLE-trainierten Modellen zu vergleichen. Die Forscher verwendeten den MAUVE-Rating als Maß für den Vergleich der Leistung und es zeigte sich, dass auf SequenceMatch optimierte Modelle Textual content erzeugten, der näher am Datensatz lag und im Gegensatz zu MLE-trainierten Modellen flüssiger und fehlerfreier wirkten. Das Group betonte auch die Grenzen seines Modells, da es mehr Rechenressourcen und mehr Zeit für die Erstellung längerer Texte erfordert. Bei ihrer zukünftigen Arbeit konzentrieren sich die Forscher darauf, zu untersuchen, wie sich verschiedene Divergenzmethoden auf die Qualität der erzeugten Sequenzen auswirken.
Besuche die Papier. Vergessen Sie nicht, mitzumachen unser 25k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com
🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an
Khushboo Gupta ist Beratungspraktikant bei MarktechPost. Derzeit absolviert sie ihren B.Tech am Indian Institute of Know-how (IIT) in Goa. Ihre Leidenschaft gilt den Bereichen maschinelles Lernen, Verarbeitung natürlicher Sprache und Webentwicklung. Es macht ihr Spaß, mehr über den technischen Bereich zu lernen, indem sie an verschiedenen Herausforderungen teilnimmt.