Forscher des Allen Institute for AI stellen VISPROG vor: einen neurosymbolischen Ansatz zur Lösung komplexer und kompositorischer visueller Aufgaben anhand natürlicher Sprachanweisungen

0
26


Die Suche nach Allzweck-KI-Systemen hat die Entwicklung leistungsfähiger, durchgängig trainierbarer Modelle erleichtert, von denen viele darauf abzielen, einem Benutzer eine einfache Schnittstelle in natürlicher Sprache zur Verfügung zu stellen, damit er sich mit dem Modell beschäftigen kann. Die gebräuchlichste Methode zur Entwicklung dieser Systeme ist ein groß angelegtes unbeaufsichtigtes Vortraining, gefolgt von einem überwachten Multitasking-Coaching. Letztendlich möchten sie, dass diese Systeme auch bei schwierigen Aufgaben auf unbestimmte Zeit skalierbar sind. Diese Strategie erfordert jedoch für jede Aufgabe einen sorgfältig ausgewählten Datensatz. Indem sie schwierige, in natürlicher Sprache dargelegte Aktivitäten in einfachere Phasen zerlegen, die von spezialisierten, durchgängig trainierten Modellen oder anderen Programmen bewältigt werden können, untersuchen sie in dieser Arbeit die Verwendung großer Sprachmodelle zur Bewältigung des langen Teils komplexer Aufgaben.

Sagen Sie einem Laptop-Imaginative and prescient-Programm: „Markieren Sie die sieben Hauptfiguren aus der TV-Serie Large Bang Principle in diesem Bild.“ Das System muss zunächst den Zweck der Anweisung verstehen, bevor es die folgenden Schritte ausführt: Gesichter erkennen, die Liste der Hauptfiguren von Large Bang Principle aus einer Wissensdatenbank abrufen, Gesichter anhand der Figurenliste klassifizieren und das Bild mit den Namen und Tags versehen Gesichter der erkannten Charaktere. Während mehrere Bildverarbeitungs- und Sprachsysteme jede Aufgabe ausführen können, liegt die Ausführung von Aufgaben in natürlicher Sprache außerhalb des Zuständigkeitsbereichs von durchgängig trainierten Systemen.

Abbildung 1: Ein modulares und interpretierbares neurosymbolisches System für kompositorisches visuelles Denken – VISPROG. VISPROG entwickelt ein Programm für jede neue Anweisung unter Verwendung von kontextbezogenem Lernen in GPT-3, unter Berücksichtigung einiger Instanzen natürlichsprachlicher Anweisungen und der erforderlichen Excessive-Stage-Programme, und führt das Programm dann auf den Eingabebildern aus, um die Vorhersage zu erhalten . Darüber hinaus verdichtet VISPROG die Zwischenergebnisse zu einer verständlichen visuellen Begründung. Wir verwenden VISPROG für Aufgaben, die die Zusammenstellung verschiedener Module für den Wissensabruf, arithmetische und logische Operationen sowie für die Analyse und Bearbeitung von Bildern erfordern

Forscher des Allen Institute for AI schlagen VISPROG vor, ein Programm, das visuelle Informationen (ein einzelnes Bild oder eine Sammlung von Bildern) und einen Befehl in natürlicher Sprache als Eingabe verwendet und eine Reihe von Anweisungen oder ein visuelles Programm, wie sie genannt werden können, erstellt. und führt dann diese Anweisungen aus, um das erforderliche Ergebnis zu erzielen. Jede Zeile eines visuellen Programms ruft eines der vielen Module auf, die das System jetzt unterstützt. Module können vorgefertigte Sprachmodelle, OpenCV-Bildverarbeitungsunterroutinen oder arithmetische und logische Operatoren sein. Es kann sich auch um vorgefertigte Laptop-Imaginative and prescient-Modelle handeln. Die durch die Ausführung früherer Codezeilen erstellten Eingaben werden von Modulen genutzt und erzeugen Zwischenausgaben, die später verwendet werden können.

In dem zuvor erwähnten Beispiel werden ein Gesichtsdetektor, GPT-3 als Wissensabrufsystem und CLIP als Bildklassifizierer mit offenem Vokabular von dem von VISPROG erstellten visuellen Programm verwendet, um die erforderliche Ausgabe bereitzustellen (siehe Abb. 1). Sowohl die Generierung als auch die Ausführung von Programmen für Imaginative and prescient-Anwendungen werden durch VISPROG verbessert. Neural Module Networks (NMN) kombinieren spezialisierte, differenzierbare neuronale Module, um ein fragespezifisches, durchgängig trainierbares Netzwerk für das Downside der visuellen Fragebeantwortung (VQA) zu erstellen. Diese Methoden trainieren entweder einen Layoutgenerator mithilfe der schwachen Antwortüberwachung von REINFORCE oder spröde, vorgefertigte semantische Parser, um das Format von Modulen deterministisch zu generieren.

Im Gegensatz dazu ermöglicht VISPROG Benutzern die Erstellung komplizierter Programme ohne vorherige Schulung unter Verwendung eines leistungsstarken Sprachmodells (GPT-3) und begrenzter kontextbezogener Beispiele. Da VISPROG-Programme trainierte, hochmoderne Modelle, nicht-neuronale Python-Unterroutinen und höhere Abstraktionsebenen als NMNs nutzen, sind sie ebenfalls abstrakter als NMNs. Aufgrund dieser Vorteile ist VISPROG ein schnelles, effektives und vielseitiges neurosymbolisches System. Darüber hinaus ist VISPROG sehr interpretierbar. Erstens erstellt VISPROG einfach zu verstehende Programme, deren logische Richtigkeit vom Benutzer überprüft werden kann. Zweitens ermöglicht VISPROG durch die Aufteilung der Vorhersage in überschaubare Teile dem Benutzer, die Ergebnisse von Zwischenphasen zu untersuchen, um Fehler zu erkennen und bei Bedarf Korrekturen an der Logik vorzunehmen.

Als visuelle Begründung für die Vorhersage dient ein fertiges Programm mit Zwischenschrittausgaben (wie Textual content, Begrenzungsrahmen, Segmentierungsmasken, erzeugten Bildern usw.), die zur Darstellung des Informationsflusses verbunden sind. Sie setzen VISPROG für vier verschiedene Aktivitäten ein, um seine Vielseitigkeit zu demonstrieren. Diese Aufgaben erfordern allgemeine Fähigkeiten (z. B. das Parsen von Bildern), erfordern aber auch spezielle Denk- und visuelle Manipulationsfähigkeiten. Zu diesen Aufgaben gehören:

  1. Beantwortung kompositorischer visueller Fragen.
  2. Zero-Shot-NLVR bei Bildpaarungen.
  3. Kennzeichnung von Sachwissensobjekten aus NL-Anweisungen.
  4. Sprachgesteuerte Bildmanipulation.

Sie betonen, dass keines der Module oder das Sprachmodell in irgendeiner Weise verändert wurde. Es bedarf einiger kontextbezogener Beispiele mit Befehlen in natürlicher Sprache und den entsprechenden Programmen, um VISPROG an jede Aufgabe anzupassen. VISPROG ist einfach zu verwenden und bietet gegenüber einem Foundation-VQA-Modell erhebliche Vorteile beim kompositorischen VQA-Take a look at von 2,7 Punkten, eine gute Nullpunktgenauigkeit beim NLVR von 62,4 % und erfreuliche qualitative und quantitative Ergebnisse bei Wissenskennzeichnungs- und Bildbearbeitungsaufgaben.


Besuche die Papier, GithubUnd Projektseite. Vergessen Sie nicht, mitzumachen unser 25k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com

🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an


Aneesh Tickoo ist Beratungspraktikantin bei MarktechPost. Derzeit absolviert er seinen Bachelor-Abschluss in Datenwissenschaft und künstlicher Intelligenz am Indian Institute of Know-how (IIT) in Bhilai. Die meiste Zeit verbringt er mit der Arbeit an Projekten, die darauf abzielen, die Leistungsfähigkeit des maschinellen Lernens zu nutzen. Sein Forschungsinteresse gilt der Bildverarbeitung und er ist leidenschaftlich daran interessiert, Lösungen dafür zu entwickeln. Er liebt es, mit Menschen in Kontakt zu treten und an interessanten Projekten mitzuarbeiten.




Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here