Kontextuelle KI stellt LENS vor: Ein KI-Framework für visionärerte Sprachmodelle, das Flamingo auf VQAv2 um 9 % (56->65 %) übertrifft

0
26


Giant Language Fashions (LLMs) haben in den letzten Jahren das Verständnis natürlicher Sprache verändert und bemerkenswerte Fähigkeiten im semantischen Verständnis, der Abfrageauflösung und der Textproduktion bewiesen, insbesondere in Zero-Shot- und Fence-Shot-Umgebungen. Wie in Abb. 1(a) zu sehen ist, wurden mehrere Methoden für den Einsatz von LLMs bei Sehaufgaben entwickelt. Ein optischer Encoder kann darauf trainiert werden, jedes Bild als eine Reihe kontinuierlicher Einbettungen darzustellen, sodass der LLM es verstehen kann. Ein anderer verwendet einen kontrastiv trainierten Frozen-Imaginative and prescient-Encoder und fügt dem eingefrorenen LLM zusätzliche Schichten hinzu, die dann von Grund auf gelernt werden.

Eine andere Methode empfiehlt, einen leichten Transformator zu trainieren, um einen eingefrorenen visuellen Encoder (kontrastiv vorab trainiert) und einen eingefrorenen LLM auszurichten. Selbst wenn sie in der oben genannten Forschung Fortschritte gemacht haben, ist es immer noch schwierig, den Rechenaufwand der zusätzlichen Vortrainingsstufe(n) zu rechtfertigen. Darüber hinaus sind umfangreiche Datenbanken mit Texten, Fotos und Movies erforderlich, um die visuellen und sprachlichen Modalitäten mit einem vorhandenen LLM zu synchronisieren. Flamingo fügt einem vorab trainierten LLM neue Queraufmerksamkeitsebenen hinzu, um visuelle Funktionen hinzuzufügen.

Abbildung 1: Vergleich von Methoden zur Koordinierung visueller und sprachlicher Modalitäten Es gibt zwei Optionen für das multimodale Vortraining: (a) Verwendung eines gepaarten oder Internet-Datensatzes; und (b) LENS, eine vortrainingsfreie Technik, die mit jedem handelsüblichen LLM verwendet werden kann, ohne dass zusätzliche multimodale Datensätze erforderlich sind. Im Gegensatz zu LENS erfordern frühere Ansätze ein gemeinsames Vortraining zur Ausrichtung an umfangreichen multimodalen Datensätzen, um visuelle Aufgaben zu erfüllen.

Die multimodale Vortrainingsphase erfordert beeindruckende 2 Milliarden Bild-Textual content-Paare und 43 Millionen Web sites, was selbst bei Verwendung eines vorab trainierten Bildencoders und eines vorab trainierten eingefrorenen LLM bis zu 15 Tage dauern kann. Stattdessen können sie mithilfe verschiedener „Imaginative and prescient-Module“ Informationen aus visuellen Eingaben extrahieren und detaillierte Textdarstellungen (wie unter anderem Tags, Attribute, Aktionen und Beziehungen) erstellen, die sie dann direkt an das LLM weiterleiten können Vermeiden Sie die Notwendigkeit eines zusätzlichen multimodalen Vortrainings, wie in Abb. 1 (b) dargestellt. Forscher von Contextual AI und der Stanford College stellen LENS (Giant Language Fashions ENnhanced to See) vor, eine modulare Strategie, die ein LLM als „Reasoning-Modul“ verwendet und über separate „Imaginative and prescient-Module“ hinweg funktioniert.

Sie extrahieren zunächst umfangreiche Textinformationen in der LENS-Technik mithilfe vortrainierter Sehmodule, wie z. B. Kontrastmodellen und Bildunterschriftenmodellen. Der Textual content wird dann an das LLM gesendet, sodass es Aufgaben wie Objekterkennung, Sehen und Sprache (V&L) ausführen kann. LENS überbrückt die Lücke zwischen den Modalitäten ohne Kostenaufwand, indem es die Notwendigkeit zusätzlicher multimodaler Vortrainingsstufen oder Daten überflüssig macht. Durch die Integration von LENS erhalten sie ein Modell, das sofort domänenübergreifend funktioniert, ohne dass zusätzliches domänenübergreifendes Vortraining erforderlich ist. Darüber hinaus ermöglicht uns diese Integration, die neuesten Entwicklungen in der Pc Imaginative and prescient und der Verarbeitung natürlicher Sprache sofort zu nutzen und so die mit beiden Disziplinen verbundenen Vorteile zu maximieren.

Sie leisten folgende Beiträge:

• Sie stellen LENS vor, eine modulare Methode, die die Herausforderungen des maschinellen Sehens bewältigt, indem sie die kontextbezogenen Lernfähigkeiten von Sprachmodellen mit wenigen Schüssen durch Beschreibungen visueller Eingaben in natürlicher Sprache nutzt.

• LENS gibt jedem handelsüblichen LLM die Möglichkeit, ohne weitere Schulung oder Daten zu sehen.

• Sie verwenden eingefrorene LLMs, um Objekterkennungs- und visuelle Argumentationsaufgaben ohne zusätzliche Imaginative and prescient- und Sprachausrichtung oder multimodale Daten zu bewältigen. Experimentelle Ergebnisse zeigen, dass ihr Ansatz eine Zero-Shot-Leistung erzielt, die mit durchgängigen, gemeinsam vorab trainierten Modellen wie Kosmos und Flamingo konkurrenzfähig oder diesen überlegen ist. Eine teilweise Umsetzung ihres Papiers ist auf GitHub verfügbar.


Besuche die Papier, Demo, Github-LinkUnd Blog. Vergessen Sie nicht, mitzumachen unser 25k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com


Empfohlene Instruments:

🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an


Aneesh Tickoo ist Beratungspraktikantin bei MarktechPost. Derzeit absolviert er seinen Bachelor-Abschluss in Datenwissenschaft und künstlicher Intelligenz am Indian Institute of Know-how (IIT) in Bhilai. Die meiste Zeit verbringt er mit der Arbeit an Projekten, die darauf abzielen, die Leistungsfähigkeit des maschinellen Lernens zu nutzen. Sein Forschungsinteresse gilt der Bildverarbeitung und er ist leidenschaftlich daran interessiert, Lösungen dafür zu entwickeln. Er liebt es, mit Menschen in Kontakt zu treten und an interessanten Projekten mitzuarbeiten.




Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here