Lernen Sie ToolQA kennen: Ein neuer Datensatz, der die Fähigkeit großer Sprachmodelle (LLMs) bewertet, externe Tools zur Beantwortung von Fragen zu verwenden

0
22


Giant Language Fashions (LLMs) haben sich in den Bereichen Pure Language Processing (NLP) und Pure Language Understanding (NLU) als äußerst effektiv erwiesen. Berühmte LLMs wie GPT, BERT, PaLM usw. werden von Forschern genutzt, um Lösungen in allen Bereichen bereitzustellen, von Bildung und sozialen Medien bis hin zu Finanzen und Gesundheitswesen. Da diese LLMs auf riesigen Mengen an Datensätzen trainiert werden, erfassen sie eine große Menge an Wissen. LLMs haben ihre Fähigkeiten bei der Beantwortung von Fragen durch Optimierung, Inhaltsgenerierung, Textzusammenfassung, Übersetzung von Sprachen usw. bewiesen. Obwohl LLMs in letzter Zeit beeindruckende Fähigkeiten gezeigt haben, gab es Schwierigkeiten, believable und unbegründete Informationen ohne Halluzinationen und Schwächen im numerischen Denken zu produzieren.

Jüngste Untersuchungen haben gezeigt, dass die Erweiterung von LLMs mit externen Instruments, einschließlich Retrieval-Augmentation, Mathematik-Instruments und Code-Interpretern, ein besserer Ansatz zur Bewältigung der oben genannten Herausforderungen ist. Die Bewertung der Wirksamkeit dieser externen Instruments bereitet Schwierigkeiten, da aktuelle Bewertungsmethoden Hilfe benötigen, um festzustellen, ob das Modell lediglich vorab trainierte Informationen abruft oder tatsächlich externe Instruments zur Problemlösung nutzt. Um diese Einschränkungen zu überwinden, hat ein Forscherteam des School of Computing, des Georgia Institute of Know-how und Atlanta, GA, ToolQA eingeführt, einen Benchmark für die Beantwortung von Fragen, der die Kompetenz von LLMs bei der Nutzung externer Ressourcen bewertet.

ToolQA besteht aus Daten aus acht Domänen und definiert 13 Arten von Instruments, die Informationen aus externen Referenzkorpora erfassen können. In jeder Instanz von ToolQA sind eine Frage, eine Antwort, Referenzkorpora und eine Liste der verfügbaren Instruments enthalten. Die Einzigartigkeit von ToolQA liegt darin, dass alle Fragen nur durch die Verwendung geeigneter Instruments zur Extraktion von Informationen aus dem Referenzkorpus beantwortet werden können, wodurch die Möglichkeit minimiert wird, dass LLMs Fragen ausschließlich auf der Grundlage interner Kenntnisse beantworten, und eine verlässliche Bewertung ihres Instruments ermöglicht -Nutzungsfähigkeiten.

ToolQA umfasst drei automatisierte Phasen: Referenzdatenerfassung, vom Menschen gesteuerte Fragegenerierung und programmatische Antwortgenerierung. In der ersten Section werden verschiedene Arten öffentlicher Korpora, darunter Texte, Tabellen und Grafiken, aus verschiedenen Domänen gesammelt und dienen als Referenzkorpora für die werkzeugbasierte Beantwortung von Fragen. In der zweiten Section werden Fragestellungen erstellt, die nur mithilfe der Instruments und nicht mithilfe der Referenzkorpora gelöst werden können. Dies wird über eine vorlagenbasierte Methode zur Fragengenerierung erreicht, die auch die Instanziierung von Fragen mit Werkzeugattributen sowie die vom Menschen gesteuerte Vorlagenerstellung und -validierung umfasst. In der dritten Section werden genaue Antworten auf die generierten Fragen erstellt, den Instruments entsprechende Operatoren implementiert und Antworten programmgesteuert aus den Referenzkorpora abgerufen.

Das Staff führte Experimente sowohl mit Commonplace-LLMs als auch mit Instrument-erweiterten LLMs durch, um Fragen in ToolQA zu beantworten. Die Ergebnisse zeigten, dass LLMs, die nur auf internem Wissen basieren, wie ChatGPT und Chain-of-thoughts-Prompting, niedrige Erfolgsquoten haben, etwa 5 % bei einfachen Fragen und 2 % bei schwierigen Fragen. Andererseits schnitten Instrument-erweiterte LLMs wie Chameleon und ReAct durch den Einsatz externer Instruments besser ab, wobei die beste Leistung, die von Instrument-erweiterten LLMs erzielt wurde, bei 43,15 % bei einfachen Fragen und 8,2 % bei schwierigen Fragen lag.

Die Ergebnisse und die Fehleranalyse zeigen, dass ToolQA ein schwieriger Maßstab für aktuelle werkzeuggestützte LLM-Ansätze ist, insbesondere für schwierige Probleme, die eine komplexere Werkzeugkompositionsbegründung erfordern. Es ist eine vielversprechende Ergänzung zu den Entwicklungen in der KI.


Besuche die Papier Und Github Repo. Vergessen Sie nicht, mitzumachen unser 25k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com


Empfohlene Instruments:

🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an


Tanya Malhotra studiert im letzten Jahr an der College of Petroleum & Vitality Research in Dehradun und studiert BTech in Informatik mit Spezialisierung auf künstliche Intelligenz und maschinelles Lernen.
Sie ist eine Information-Science-Enthusiastin mit gutem analytischem und kritischem Denken sowie einem großen Interesse daran, sich neue Fähigkeiten anzueignen, Gruppen zu leiten und die Arbeit organisiert zu verwalten.




Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here