Forscher der UC Berkeley und Google stellen ein KI-Framework vor, das die visuelle Beantwortung von Fragen als modulare Codegenerierung formuliert

0
23


Der Bereich der künstlichen Intelligenz (KI) entwickelt sich mit der Veröffentlichung jedes neuen Modells und jeder neuen Lösung weiter. Der Hauptgrund für den Aufstieg der KI sind Massive Language Fashions (LLMs), die aufgrund ihrer unglaublichen Fähigkeiten in letzter Zeit sehr beliebt sind. Die Teilbereiche der KI, sei es die Verarbeitung natürlicher Sprache, das Verstehen natürlicher Sprache oder Laptop Imaginative and prescient, sie alle machen Fortschritte, und das aus guten Gründen. Ein Forschungsbereich, der in letzter Zeit großes Interesse bei KI- und Deep-Studying-Communitys geweckt hat, ist Visible Query Answering (VQA). VQA ist die Aufgabe, offene textbasierte Fragen zu einem Bild zu beantworten.

Systeme, die die visuelle Beantwortung von Fragen nutzen, versuchen, Fragen in natürlicher Sprache zu einer Eingabe in Type eines Bildes angemessen zu beantworten. Diese Systeme sind so konzipiert, dass sie den Inhalt eines Bildes ähnlich wie Menschen verstehen und so die Ergebnisse effektiv kommunizieren . Kürzlich hat ein Forscherteam der UC Berkeley und Google Analysis einen Ansatz namens CodeVQA vorgeschlagen, der sich mit der visuellen Beantwortung von Fragen mithilfe modularer Codegenerierung befasst. CodeVQA formuliert VQA als Programmsyntheseproblem und verwendet Code-Schreibsprachenmodelle, die Fragen als Eingabe verwenden und Code als Ausgabe generieren.

Das Hauptziel dieses Frameworks besteht darin, Python-Programme zu erstellen, die vorab trainierte visuelle Modelle aufrufen und ihre Ausgaben kombinieren können, um Antworten bereitzustellen. Die erstellten Programme manipulieren die visuellen Modellausgaben und leiten mithilfe von Arithmetik und bedingter Logik eine Lösung ab. Im Gegensatz zu früheren Ansätzen verwendet dieses Framework vorab trainierte Sprachmodelle, vorab trainierte visuelle Modelle basierend auf Bild-Untertitel-Paarungen, eine kleine Anzahl von VQA-Beispielen und vorab trainierte visuelle Modelle, um das Lernen im Kontext zu unterstützen.

Um spezifische visuelle Informationen aus dem Bild zu extrahieren, wie etwa Bildunterschriften, Pixelpositionen von Dingen oder Bild-Textual content-Ähnlichkeitswerte, verwendet CodeVQA primitive visuelle APIs, die um visuelle Sprachmodelle herum gewickelt sind. Der erstellte Code koordiniert verschiedene APIs, um die erforderlichen Daten zu sammeln, und nutzt dann die volle Ausdruckskraft des Python-Codes, um die Daten zu analysieren und mithilfe von Mathematik, logischen Strukturen, Rückkopplungsschleifen und anderen Programmierkonstrukten zu einer Lösung zu gelangen.

Zur Bewertung hat das Staff die Leistung dieser neuen Technik mit einer Baseline mit wenigen Schüssen verglichen, bei der zur Messung ihrer Wirksamkeit keine Codegenerierung verwendet wird. COVR und GQA waren die beiden Benchmark-Datensätze, die in der Bewertung verwendet wurden. Der GQA-Datensatz enthält Multihop-Fragen, die aus Szenendiagrammen einzelner Fotos des visuellen Genoms erstellt wurden, die von Menschen manuell mit Anmerkungen versehen wurden, und der COVR-Datensatz enthält Multihop-Fragen zu Bildsätzen im Visible Genom- und imSitu-Datensätze. Die Ergebnisse zeigten, dass CodeVQA bei beiden Datensätzen eine bessere Leistung erbrachte als bei der Basislinie. Insbesondere zeigte sich eine Verbesserung der Genauigkeit um mindestens 3 % beim COVR-Datensatz und um etwa 2 % beim GQA-Datensatz.

Das Staff hat erwähnt, dass CodeVQA einfach bereitzustellen und zu verwenden ist, da keine zusätzliche Schulung erforderlich ist. Es nutzt vorab trainierte Modelle und eine begrenzte Anzahl von VQA-Beispielen für das kontextbezogene Lernen, was dabei hilft, die erstellten Programme an bestimmte Frage-Antwort-Muster anzupassen. Zusammenfassend lässt sich sagen, dass dieses Framework leistungsstark ist und die Stärke vorab trainierter LMs und visueller Modelle nutzt, um einen modularen und codebasierten Ansatz für VQA bereitzustellen.


Besuche die Papier Und GitHub-Link. Vergessen Sie nicht, mitzumachen unser 24k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com

🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an


Tanya Malhotra studiert im letzten Jahr an der College of Petroleum & Power Research in Dehradun und studiert BTech in Informatik mit Spezialisierung auf künstliche Intelligenz und maschinelles Lernen.
Sie ist eine Information-Science-Enthusiastin mit gutem analytischem und kritischem Denken sowie einem großen Interesse daran, sich neue Fähigkeiten anzueignen, Gruppen zu leiten und die Arbeit organisiert zu verwalten.




Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here