In den letzten Monaten kam es zu einem Anstieg des Interesses und der Aktivität von Befürwortern, Politikern und Wissenschaftlern aus verschiedenen Disziplinen aufgrund der umfassenden öffentlichen Einführung großer Sprachmodelle (LLMs). Obwohl dieser Fokus angesichts der dringenden Bedenken, die neue Technologien mit sich bringen, gerechtfertigt ist, können dabei auch einige entscheidende Faktoren außer Acht gelassen werden.
In jüngster Zeit besteht großes Interesse von Journalisten, politischen Entscheidungsträgern und Wissenschaftlern aller Disziplinen an großen Sprachmodellen und darauf aufbauenden Produkten wie ChatGPT. Da diese Technologie jedoch in vielerlei Hinsicht überrascht, kann es leicht passieren, dass prägnante Erklärungen wichtige Particulars beschönigen.
Dabei gibt es acht unerwartete Aspekte:
- Die Fähigkeiten von LLMs werden mit zunehmenden Investitionen vorhersehbar zunehmen, selbst wenn keine bewusste Innovation erfolgt.
Der jüngste Anstieg der Forschung und der Investitionen in LLMs kann größtenteils auf die Ergebnisse der Skalierungsgesetze zurückgeführt werden. Wenn Forscher die Datenmenge, die in zukünftige Modelle eingespeist wird, die Größe dieser Modelle (in Bezug auf Parameter) und den Rechenaufwand für ihr Coaching erhöhen, können sie mithilfe von Skalierungsgesetzen einige grobe, aber relevante Kennzahlen für die Leistungsfähigkeit dieser Modelle genau vorhersehen Modelle werden sein (gemessen in FLOPs). Dadurch können sie einige wichtige Designentscheidungen treffen, beispielsweise die beste Größe für ein Modell innerhalb eines bestimmten Budgets, ohne viele kostspielige Experimente durchführen zu müssen.
Der Grad der Genauigkeit bei der Erstellung von Vorhersagen ist selbst im Kontext zeitgenössischer Studien zur künstlichen Intelligenz beispiellos. Da es Forschungs- und Entwicklungsteams ermöglicht, Modellschulungsinitiativen im Wert von mehreren Millionen Greenback anzubieten und dabei eine gewisse Sicherheit zu haben, dass die Projekte bei der Entwicklung wirtschaftlich vorteilhafter Systeme erfolgreich sein werden, ist es auch ein wirksames Instrument zur Förderung von Investitionen.
Obwohl Trainingsmethoden für hochmoderne LLMs noch nicht veröffentlicht wurden, deuten aktuelle ausführliche Berichte darauf hin, dass sich die zugrunde liegende Architektur dieser Systeme kaum oder gar nicht verändert hat.
- Wenn Ressourcen in LLM gesteckt werden, treten häufig unerwartet entscheidende Verhaltensweisen auf.
In den meisten Fällen kann die Fähigkeit eines Modells, die Fortsetzung eines unvollendeten Textes korrekt vorherzusagen, gemessen am Testverlust vor dem Coaching, nur durch eine Skalierungsregel vorhergesagt werden.
Obwohl diese Kennzahl im Durchschnitt mit der Nützlichkeit eines Modells bei vielen praktischen Aktivitäten korreliert, ist es nicht einfach vorherzusagen, wann ein Modell beginnen wird, bestimmte Talente zu zeigen oder in der Lage zu sein, bestimmte Aufgaben auszuführen.
Genauer gesagt, die Fähigkeit von GPT-3, Fow-Shot-Studying durchzuführen – das heißt, eine neue Aufgabe aus einer kleinen Anzahl von Beispielen in einer einzigen Interaktion zu lernen – und Gedankenkettenschlussfolgerung – das heißt, den Grund für herausfordernde Aufgaben aufzuschreiben Wenn Sie dazu aufgefordert werden, wie es ein Schüler bei einem Mathe-Check tun könnte, und eine verbesserte Leistung nachweisen können, heben Sie es als das erste moderne LLM hervor.
Zukünftige LLMs können alle benötigten Funktionen entwickeln, und es gibt nur wenige allgemein akzeptierte Grenzen.
Allerdings wurden die Fortschritte bei LLMs von Experten teilweise weniger vorhergesehen, als sie tatsächlich eingetreten sind.
- LLMs erwerben und nutzen häufig Außendarstellungen.
Immer mehr Beweise deuten darauf hin, dass LLMs interne Darstellungen der Welt aufbauen und es ihnen ermöglichen, auf einer abstrakten Ebene zu argumentieren, unabhängig von der spezifischen Sprachform des Textes. Die Beweise für dieses Phänomen sind in den größten und aktuellsten Modellen am deutlichsten, daher ist davon auszugehen, dass es mit zunehmender Skalierung der Systeme robuster wird. Dennoch müssen aktuelle LLMs dies effektiver und effektiver tun.
Die folgenden Erkenntnisse, die auf einer Vielzahl experimenteller Techniken und theoretischer Modelle basieren, stützen diese Behauptung.
- Die internen Farbdarstellungen von Modellen stimmen in hohem Maße mit empirischen Erkenntnissen darüber überein, wie Menschen Farben wahrnehmen.
- Modelle können auf das Wissen und die Überzeugungen des Autors schließen, um den zukünftigen Verlauf des Dokuments vorherzusagen.
- Geschichten werden verwendet, um Modelle zu informieren, die dann ihre internen Darstellungen der Merkmale und Orte der in den Geschichten dargestellten Objekte ändern.
- Manchmal können Modelle Hinweise geben, wie man seltsame Dinge auf Papier darstellen kann.
- Viele Assessments zum gesunden Menschenverstand werden von Modellen bestanden, sogar solche wie die Winograd Schema Problem, bei denen es keine Texthinweise zur Antwort gibt.
Diese Ergebnisse widersprechen der herkömmlichen Meinung, dass LLMs lediglich statistische Prädiktoren für das nächste Wort sind und ihr Lernen oder Denken nicht über den Textual content hinaus verallgemeinern können.
- Es gibt keine wirksamen Methoden, um die Wirkungsweise von LLMs zu beeinflussen.
Der Aufbau eines sprachbasierten LLM ist teuer, da Zeit und Aufwand erforderlich sind, um ein neuronales Netzwerk zu trainieren, um die Zukunft zufälliger Stichproben von von Menschen geschriebenen Texten vorherzusagen. Ein solches System muss jedoch in der Regel geändert oder angeleitet werden, damit es von seinen Erstellern für andere Zwecke als die Fortsetzungsvorhersage verwendet werden kann. Diese Änderung ist auch dann erforderlich, wenn ein generisches Modell zum Befolgen von Anweisungen ohne den Versuch einer Aufgabenspezialisierung erstellt wird.
Das einfache Sprachmodell der Eingabeaufforderung besteht darin, eine Phrase zu konstruieren, die nicht zu Ende ist.
Forscher trainieren ein Modell, um menschliche Demonstrationen dieser Fähigkeit auf Expertenebene unter Aufsicht nachzuahmen. Mit Reinforcement Studying kann man die Stärke der Aktionen eines Modells basierend auf den Meinungen menschlicher Tester und Benutzer schrittweise ändern.
- Das Innenleben von LLMs muss von Experten noch vollständig verstanden werden.
Um zu funktionieren, basieren hochmoderne LLMs auf künstlichen neuronalen Netzen, die menschliche Neuronen nur lose imitieren und deren interne Komponenten mit Zahlen aktiviert werden.
In diesem Sinne sind die aktuellen neurowissenschaftlichen Methoden zur Untersuchung solcher Systeme nach wie vor unzureichend: Obwohl Forscher über einige rudimentäre Techniken verfügen, um zu bestimmen, ob Modelle bestimmte Datentypen (wie die in Abschnitt 3 besprochenen Farbergebnisse) genau darstellen, fehlt ihnen seit Anfang 2023 eine Methode, die es ermöglichen würde, die Informationen, Überlegungen und Ziele, die in die Ausgabe eines Modells einfließen, angemessen zu beschreiben.
Sowohl modellgenerierte Erklärungen als auch solche, die das Denken in natürlicher Sprache anregen, können trotz ihres scheinbaren Versprechens durchweg ungenau sein.
- Die LLM-Leistung wird nicht durch die menschliche Leistung bei einer bestimmten Aufgabe begrenzt.
Selbst wenn man LLMs beibringt, menschliche Schreibtätigkeiten nachzuahmen, könnten sie irgendwann in vielen Bereichen den Menschen übertreffen. Dafür sind zwei Faktoren verantwortlich: Erstens müssen sie erheblich mehr Informationen lernen, sich merken und möglicherweise synthetisieren, da sie auf viel mehr Daten trainiert werden, als irgendjemand sieht. Darüber hinaus werden sie vor ihrem Einsatz häufig mit Reinforcement Studying geschult, wodurch sie lernen, Reaktionen zu erzeugen, die Menschen als nützlich erachten, ohne dass Menschen ein solches Verhalten zeigen müssen. Dies ist vergleichbar mit den Methoden, mit denen in Spielen wie Go übermenschliche Fähigkeiten erreicht werden.
Es scheint beispielsweise, dass LLMs bei ihrer vorab trainierten Aufgabe, vorherzusagen, welches Wort am wahrscheinlichsten nach einem bestimmten Textstück vorkommt, deutlich genauer sind als Menschen. Darüber hinaus können Menschen LLMs beibringen, Aufgaben genauer zu erledigen als sie selbst.
- LLMs sind nicht verpflichtet, die Werte ihrer Autoren oder die in On-line-Inhalten vermittelten Werte widerzuspiegeln.
Die Ausgabe eines einfachen vorab trainierten LLM wird dem Eingabetext sehr ähnlich sein. Dies beinhaltet eine Kongruenz in den Werten des Textes: Die expliziten Kommentare eines Modells zu wertebeladenen Themen und die impliziten Vorurteile hinter seinem Schreiben spiegeln seine Trainingsdaten wider. Diese Einstellungen liegen jedoch größtenteils in den Händen der Entwickler, insbesondere wenn zusätzliche Eingabeaufforderungen und Schulungen auf das einfache vorab trainierte LLM angewendet wurden, um es produktreif zu machen. Die Werte eines bereitgestellten LLM müssen kein gewichteter Durchschnitt der in seinen Trainingsdaten verwendeten Werte sein. Infolgedessen müssen die in diesen Modellen vermittelten Werte nicht der Bedeutung der spezifischen Personen und Organisationen entsprechen, die sie konstruieren, und sie können externen Eingaben und Prüfungen ausgesetzt sein.
- Kurze Begegnungen mit LLMs sind häufig trügerisch.
Viele heute verwendete LLMs können im Allgemeinen instruiert werden, obwohl diese Fähigkeit in das Modell eingebaut werden muss und nicht mit schlechten Werkzeugen aufgepfropft werden muss. Die wachsende Fähigkeit des Immediate Engineering basiert auf der Beobachtung, dass viele Modelle eine Aufgabe zunächst nicht erfüllen, wenn sie dazu aufgefordert werden, später jedoch erfolgreich sind, sobald die Anforderung leicht umformuliert oder umformuliert wird. Dies ist teilweise der Grund, warum Modelle eindeutig auf die Particulars ihrer Dokumentation reagieren können.
Diese zufälligen Pannen zeigen, dass die Beauftragung von Sprachmodellen zur Ausführung von Befehlen nicht narrensicher ist. Wenn ein Modell ordnungsgemäß aufgefordert wird, eine Aufgabe auszuführen, schneidet es in verschiedenen Testszenarien häufig intestine ab. Dennoch ist es kein schlüssiger Beweis dafür, dass einer Individual aufgrund eines einzelnen Fehlers das Wissen oder die Fähigkeiten zur Ausübung ihrer Arbeit fehlen.
Selbst wenn man weiß, dass ein LLM eine bestimmte Aufgabe nicht erfüllen kann, beweist diese Tatsache allein nicht, dass kein anderer LLM das Gleiche leisten kann.
Nichtsdestotrotz ist es ein ausreichender Beweis dafür, dass ein LLM eine Aufgabe nur einmal erfolgreich erledigt, insbesondere wenn die Instanz zu Demonstrationszwecken zufällig ausgewählt wurde.
LLMs können sich bestimmte Beispiele oder Strategien zur Lösung von Aufgaben aus ihren Trainingsdaten merken, ohne den Argumentationsprozess zu verinnerlichen, der es ihnen ermöglichen würde, solche Aufgaben strong zu lösen.
Einschränkungen
- Der Hauptfehler in den gegenwärtigen Systemen ist die Halluzination, das Drawback, dass LLMs believable falsche Aussagen produzieren. Dies schränkt den verantwortungsvollen Umgang mit ihnen stark ein.
- Als Ergebnis neuer Strategien, die sich die Tatsache zunutze machen, dass Modelle diese schlechten Verhaltensweisen oft erkennen können, wenn sie befragt werden, wurden explizite Verzerrungen und Toxizität in der Modellausgabe drastisch reduziert. Obwohl diese Schutzmaßnahmen wahrscheinlich nicht narrensicher sind, sollten sie die Häufigkeit und Bedeutung dieser unerwünschten Gewohnheiten im Laufe der Zeit verringern.
- Wenn LLMs ihre internen Modelle der Welt und ihre Fähigkeit, diese Modelle auf praktische Probleme anzuwenden, verbessern, werden sie besser in der Lage sein, immer vielfältigere Aktivitäten zu übernehmen, wie zum Beispiel die Entwicklung und Umsetzung kreativer Strategien zur Maximierung der Ergebnisse in der realen Welt.
- Vorhersagen über die Fähigkeiten zukünftiger LLMs, die auf den wirtschaftlichen Beweggründen, Werten oder Persönlichkeiten ihrer Entwickler basieren, werden wahrscheinlich scheitern, da viele wichtige LLM-Kapazitäten neu entstehen und unvorhersehbar sind.
- Zahlreiche glaubwürdige wissenschaftliche Studien haben gezeigt, dass neuere LLM-Studierende Sprach- und Denktests nicht abschließen können, selbst wenn ihnen vergleichsweise einfache Prüfungen vorgelegt werden.
Hauptmerkmale:
- Leistungsstärker ohne zusätzliche Kosten
- Es gibt keine zuverlässigen Mittel dazu
- Globale Modelle lernen
- Übertrifft mehr Dinge als Menschen
- Es gibt keine verlässliche Methode, das Handeln von Menschen zu beeinflussen.
- Es kann zu unvorhersehbarem Verhalten kommen.
- Kurze Gespräche können täuschen.
Besuche die Papier. Alle Anerkennung für diese Forschung gebührt den Forschern dieses Projekts. Vergessen Sie auch nicht, mitzumachen unser 17k+ ML SubReddit, Discord-KanalUnd E-Mail-Newsletterwo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen.
Dhanshree Shenwai ist Informatikingenieur und verfügt über gute Erfahrung in FinTech-Unternehmen in den Bereichen Finanzen, Karten & Zahlungen und Bankwesen mit großem Interesse an Anwendungen von KI. Sie ist begeistert davon, neue Technologien und Fortschritte in der sich entwickelnden Welt von heute zu erforschen, um das Leben aller einfacher zu machen.