Neue Fähigkeiten enthüllt: Kann sich nur eine ausgereifte KI wie GPT-4 selbst verbessern? Erforschung der Auswirkungen des autonomen Wachstums in Sprachmodellen

0
27


Forscher untersuchen, ob sich viele Giant Language Fashions (LLMs) ähnlich wie bei AlphaGo Zero, wo KI-Agenten sich durch die wiederholte Teilnahme an Wettbewerbsspielen mit klar festgelegten Regeln selbst weiterentwickeln, in einem Verhandlungsspiel mit wenig bis gar keiner menschlichen Interaktion gegenseitig verbessern können. Die Ergebnisse dieser Studie werden weitreichende Auswirkungen haben. Im Gegensatz zum heutigen datenintensiven LLM-Coaching können leistungsstarke Agenten mit wenigen menschlichen Anmerkungen erstellt werden, wenn die Agenten unabhängig voneinander Fortschritte machen können. Es deutet auch auf mächtige Agenten mit geringer menschlicher Aufsicht hin, was problematisch ist. In dieser Studie laden Forscher der College of Edinburgh und des Allen Institute for AI zwei Sprachmodelle ein, einen Kunden und einen Verkäufer, um über einen Kauf zu feilschen.

Abbildung 1: Rahmen für unser Verhandlungsspiel. Sie laden zwei LLM-Agenten ein, in einem Feilschspiel den Verkäufer und den Käufer zu spielen. Ihr Ziel besteht darin, das Produkt für mehr oder weniger Geld zu verkaufen oder zu kaufen. Sie bitten einen dritten LLM, einen KI-Kritiker, nach einer Runde den Spieler zu nennen, mit dem wir besser werden wollen. Danach fordern sie den Spieler auf, seine Verhandlungstaktik angesichts der Kritik anzupassen. Dies tun sie über mehrere Runden hinweg, um zu sehen, ob die Modelle immer besser werden können.

Der Kunde möchte für das Produkt weniger bezahlen, der Verkäufer wird jedoch aufgefordert, es zu einem höheren Preis zu verkaufen (Abb. 1). Sie bitten ein drittes Sprachmodell, die Rolle des Kritikers zu übernehmen und einem Spieler Kommentare zu geben, sobald ein Geschäft abgeschlossen wurde. Anschließend spielen sie das Spiel mithilfe der KI-Inputs des kritischen LLM erneut und ermutigen den Spieler, seinen Ansatz zu verfeinern. Sie entscheiden sich für das Verhandlungsspiel, weil es explizite Regeln in gedruckter Type und ein spezifisches, quantifizierbares Ziel (einen niedrigeren/höheren Vertragspreis) für taktische Verhandlungen enthält. Obwohl das Spiel zunächst einfach erscheint, erfordert es nicht-triviale Sprachmodellfähigkeiten, da das Modell in der Lage sein muss:

  1. Verstehen Sie die Textregeln des Verhandlungsspiels klar und halten Sie sich strikt daran.
  2. Entsprechen Sie dem vom Kritiker LM bereitgestellten Textual content-Suggestions und verbessern Sie es iterativ.
  3. Denken Sie langfristig über die Strategie und das Suggestions nach und verbessern Sie sich über mehrere Runden hinweg.

In ihren Experimenten erfüllen nur die Modelle get-3.5-turbo, get-4 und Claude-v1.3 die Anforderungen, Verhandlungsregeln und -strategien verstehen zu können und intestine auf KI-Anweisungen abgestimmt zu sein. Daher verfügten nicht alle betrachteten Modelle über alle diese Fähigkeiten (Abb. 2). In ersten Studien testeten sie auch komplexere Textspiele wie Brettspiele und textbasierte Rollenspiele, allerdings erwies es sich für die Agenten als schwieriger, die Regeln zu verstehen und einzuhalten. Ihre Methode ist als ICL-AIF (In-Context Studying from AI Suggestions) bekannt.

7BNLI5w7OY BurxWndIhKNjKVSwup2C4sf pVlHbFNFOokGpoZM2qvf9mrHFY73v1vZzFcnvUQwLQRpQMDCUwkxl7ia6RSceLa ce6R9C4i3hOLeelvKUzfDS7O5bG 4BEY2sVvGkJ72fiKuvRCJJpA
Figur 2: Modelle sind in mehrere Stufen unterteilt, basierend auf den Fähigkeiten, die in unserem Spiel erforderlich sind (C2 – Verhandlung, C3 – KI-Suggestions und C4 – laufende Verbesserungen). Unsere Forschung zeigt, dass nur robuste und intestine abgestimmte Modelle wie gpt-4 und claude-v1.3 von iterativen KI-Eingaben profitieren und sich ständig weiterentwickeln können

Sie nutzen die Kommentare des KI-Kritikers und die vorherigen Gesprächsrunden als kontextbezogene Demonstrationen. Dadurch werden die tatsächliche Entwicklung des Spielers in den vorangegangenen Runden und die Änderungsideen des Kritikers zu Anhaltspunkten für die nächste Verhandlungsrunde. Aus zwei Gründen verwenden sie In-Context-Lernen: (1) Die Feinabstimmung großer Sprachmodelle mit Reinforcement Studying ist unerschwinglich teuer, und (2) Es wurde kürzlich gezeigt, dass In-Context-Lernen eng mit dem Gradientenabstieg zusammenhängt, was zu den Schlussfolgerungen führt Es ist ziemlich wahrscheinlich, dass sie sich verallgemeinern, wenn das Modell verfeinert wird (sofern die Ressourcen dies zulassen).

Die Belohnung beim Reinforcement Studying from Human Suggestions (RLHF) ist typischerweise ein Skalar, aber im ICL-AIF wird das Suggestions in natürlicher Sprache bereitgestellt. Dies ist ein bemerkenswerter Unterschied zwischen den beiden Ansätzen. Anstatt sich nach jeder Runde auf die menschliche Interaktion zu verlassen, untersuchen sie das KI-Suggestions, da es skalierbarer ist und den Modellen helfen kann, unabhängig voneinander voranzukommen.

Wenn Modelle Suggestions erhalten, während sie unterschiedliche Verantwortlichkeiten übernehmen, reagieren sie unterschiedlich. Die Verbesserung der Käuferrollenmodelle kann schwieriger sein als die Verbesserung der Lieferantenrollenmodelle. Auch wenn es für leistungsstarke Agenten wie get-4 vorstellbar ist, sich unter Nutzung von Vergangenheitswissen und iterativem On-line-KI-Suggestions ständig sinnvoll weiterzuentwickeln, besteht beim Versuch, etwas für mehr Geld zu verkaufen (oder etwas für weniger zu kaufen), das Risiko, dass überhaupt keine Transaktion durchgeführt wird. Sie beweisen auch, dass das Modell weniger ausführliche, aber bewusstere (und letztendlich erfolgreichere) Verhandlungen führen kann. Insgesamt gehen sie davon aus, dass ihre Arbeit ein wichtiger Schritt zur Verbesserung des Verhandelns von Sprachmodellen in einer Spielumgebung mit KI-Suggestions sein wird. Der Code ist auf GitHub verfügbar.


Besuche die Papier Und Github-Link. Vergessen Sie nicht, mitzumachen unser 24k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com


🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an


Aneesh Tickoo ist Beratungspraktikantin bei MarktechPost. Derzeit absolviert er seinen Bachelor-Abschluss in Datenwissenschaft und künstlicher Intelligenz am Indian Institute of Expertise (IIT) in Bhilai. Die meiste Zeit verbringt er mit der Arbeit an Projekten, die darauf abzielen, die Leistungsfähigkeit des maschinellen Lernens zu nutzen. Sein Forschungsinteresse gilt der Bildverarbeitung und er ist leidenschaftlich daran interessiert, Lösungen dafür zu entwickeln. Er liebt es, mit Menschen in Kontakt zu treten und an interessanten Projekten mitzuarbeiten.




Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here