Forscher untersuchen, ob sich viele Giant Language Fashions (LLMs) ähnlich wie bei AlphaGo Zero, wo KI-Agenten sich durch die wiederholte Teilnahme an Wettbewerbsspielen mit klar festgelegten Regeln selbst weiterentwickeln, in einem Verhandlungsspiel mit wenig bis gar keiner menschlichen Interaktion gegenseitig verbessern können. Die Ergebnisse dieser Studie werden weitreichende Auswirkungen haben. Im Gegensatz zum heutigen datenintensiven LLM-Coaching können leistungsstarke Agenten mit wenigen menschlichen Anmerkungen erstellt werden, wenn die Agenten unabhängig voneinander Fortschritte machen können. Es deutet auch auf mächtige Agenten mit geringer menschlicher Aufsicht hin, was problematisch ist. In dieser Studie laden Forscher der College of Edinburgh und des Allen Institute for AI zwei Sprachmodelle ein, einen Kunden und einen Verkäufer, um über einen Kauf zu feilschen.
Der Kunde möchte für das Produkt weniger bezahlen, der Verkäufer wird jedoch aufgefordert, es zu einem höheren Preis zu verkaufen (Abb. 1). Sie bitten ein drittes Sprachmodell, die Rolle des Kritikers zu übernehmen und einem Spieler Kommentare zu geben, sobald ein Geschäft abgeschlossen wurde. Anschließend spielen sie das Spiel mithilfe der KI-Inputs des kritischen LLM erneut und ermutigen den Spieler, seinen Ansatz zu verfeinern. Sie entscheiden sich für das Verhandlungsspiel, weil es explizite Regeln in gedruckter Type und ein spezifisches, quantifizierbares Ziel (einen niedrigeren/höheren Vertragspreis) für taktische Verhandlungen enthält. Obwohl das Spiel zunächst einfach erscheint, erfordert es nicht-triviale Sprachmodellfähigkeiten, da das Modell in der Lage sein muss:
- Verstehen Sie die Textregeln des Verhandlungsspiels klar und halten Sie sich strikt daran.
- Entsprechen Sie dem vom Kritiker LM bereitgestellten Textual content-Suggestions und verbessern Sie es iterativ.
- Denken Sie langfristig über die Strategie und das Suggestions nach und verbessern Sie sich über mehrere Runden hinweg.
In ihren Experimenten erfüllen nur die Modelle get-3.5-turbo, get-4 und Claude-v1.3 die Anforderungen, Verhandlungsregeln und -strategien verstehen zu können und intestine auf KI-Anweisungen abgestimmt zu sein. Daher verfügten nicht alle betrachteten Modelle über alle diese Fähigkeiten (Abb. 2). In ersten Studien testeten sie auch komplexere Textspiele wie Brettspiele und textbasierte Rollenspiele, allerdings erwies es sich für die Agenten als schwieriger, die Regeln zu verstehen und einzuhalten. Ihre Methode ist als ICL-AIF (In-Context Studying from AI Suggestions) bekannt.
Sie nutzen die Kommentare des KI-Kritikers und die vorherigen Gesprächsrunden als kontextbezogene Demonstrationen. Dadurch werden die tatsächliche Entwicklung des Spielers in den vorangegangenen Runden und die Änderungsideen des Kritikers zu Anhaltspunkten für die nächste Verhandlungsrunde. Aus zwei Gründen verwenden sie In-Context-Lernen: (1) Die Feinabstimmung großer Sprachmodelle mit Reinforcement Studying ist unerschwinglich teuer, und (2) Es wurde kürzlich gezeigt, dass In-Context-Lernen eng mit dem Gradientenabstieg zusammenhängt, was zu den Schlussfolgerungen führt Es ist ziemlich wahrscheinlich, dass sie sich verallgemeinern, wenn das Modell verfeinert wird (sofern die Ressourcen dies zulassen).
Die Belohnung beim Reinforcement Studying from Human Suggestions (RLHF) ist typischerweise ein Skalar, aber im ICL-AIF wird das Suggestions in natürlicher Sprache bereitgestellt. Dies ist ein bemerkenswerter Unterschied zwischen den beiden Ansätzen. Anstatt sich nach jeder Runde auf die menschliche Interaktion zu verlassen, untersuchen sie das KI-Suggestions, da es skalierbarer ist und den Modellen helfen kann, unabhängig voneinander voranzukommen.
Wenn Modelle Suggestions erhalten, während sie unterschiedliche Verantwortlichkeiten übernehmen, reagieren sie unterschiedlich. Die Verbesserung der Käuferrollenmodelle kann schwieriger sein als die Verbesserung der Lieferantenrollenmodelle. Auch wenn es für leistungsstarke Agenten wie get-4 vorstellbar ist, sich unter Nutzung von Vergangenheitswissen und iterativem On-line-KI-Suggestions ständig sinnvoll weiterzuentwickeln, besteht beim Versuch, etwas für mehr Geld zu verkaufen (oder etwas für weniger zu kaufen), das Risiko, dass überhaupt keine Transaktion durchgeführt wird. Sie beweisen auch, dass das Modell weniger ausführliche, aber bewusstere (und letztendlich erfolgreichere) Verhandlungen führen kann. Insgesamt gehen sie davon aus, dass ihre Arbeit ein wichtiger Schritt zur Verbesserung des Verhandelns von Sprachmodellen in einer Spielumgebung mit KI-Suggestions sein wird. Der Code ist auf GitHub verfügbar.
Besuche die Papier Und Github-Link. Vergessen Sie nicht, mitzumachen unser 24k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com
Empfohlene Instruments Aus AI Tools Club
🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an
Aneesh Tickoo ist Beratungspraktikantin bei MarktechPost. Derzeit absolviert er seinen Bachelor-Abschluss in Datenwissenschaft und künstlicher Intelligenz am Indian Institute of Expertise (IIT) in Bhilai. Die meiste Zeit verbringt er mit der Arbeit an Projekten, die darauf abzielen, die Leistungsfähigkeit des maschinellen Lernens zu nutzen. Sein Forschungsinteresse gilt der Bildverarbeitung und er ist leidenschaftlich daran interessiert, Lösungen dafür zu entwickeln. Er liebt es, mit Menschen in Kontakt zu treten und an interessanten Projekten mitzuarbeiten.