Transformation der KI-Interaktion: LLaVAR übertrifft das visuelle und textbasierte Verständnis und markiert eine neue Ära bei multimodalen Modellen zur Befehlsfolge

0
23


Durch die Kombination mehrerer Aktivitäten in einer Anweisung verbessert die Anweisungsoptimierung die Verallgemeinerung auf neue Aufgaben. Diese Fähigkeit, auf offene Fragen zu antworten, hat zur jüngsten Chatbot-Explosion seit ChatGPT 2 beigetragen. Visuelle Encoder wie CLIP-ViT wurden kürzlich als Teil von auf visuelle Anweisungen abgestimmten Modellen zu Konversationsagenten hinzugefügt und ermöglichen eine Interaktion zwischen Mensch und Agent Bilder. Allerdings benötigen sie Hilfe beim Verstehen von Textual content in Bildern, möglicherweise weil die Trainingsdaten überwiegend natürliche Bilder enthalten (z. B. konzeptionelle Bildunterschriften und COCO). Für die tägliche visuelle Wahrnehmung des Menschen ist jedoch das Leseverständnis unerlässlich. Glücklicherweise ermöglichen OCR-Techniken die Erkennung von Wörtern auf Fotos.

Die Berechnung (größere Kontextlängen) wird (naiv) erhöht, indem erkannte Texte zur Eingabe von auf visuelle Anweisungen abgestimmten Modellen hinzugefügt werden, ohne die Codierungskapazität visueller Encoder vollständig zu nutzen. Zu diesem Zweck schlagen sie vor, Daten zur Befehlsfolge zu sammeln, die das Verständnis von Wörtern in Bildern erfordern, um das auf visuelle Anweisungen abgestimmte Modell durchgängig zu verbessern. Durch die Kombination manuell eingegebener Anweisungen (z. B. „Identifizieren Sie jeden Textual content, der im bereitgestellten Bild sichtbar ist“) mit den OCR-Ergebnissen sammeln sie zunächst 422.000 verrauschte Daten zur Befehlsfolge unter Verwendung textreicher3 Bilder.

Diese massiven verrauschten Daten verbessern die Merkmalsausrichtung zwischen dem Sprachdecoder und den visuellen Merkmalen erheblich. Darüber hinaus bitten sie das Nur-Textual content-GPT-4, 16.000 Konversationen zu erstellen und dabei OCR-Ergebnisse und Bildunterschriften als hochwertige Beispiele für die Befolgung von Anweisungen zu verwenden. Jedes Gespräch kann viele Runden von Frage-Antwort-Paaren enthalten. Um je nach Eingabe anspruchsvolle Anweisungen zu erstellen, erfordert dieser Ansatz, dass GPT-4 die OCR-Daten entstört und eindeutige Fragen erstellt (Abbildung 1). Sie ergänzen die Vortrainings- und Feinabstimmungsphasen von LLaVA entsprechend anhand verrauschter und qualitativ hochwertiger Beispiele, um die Wirksamkeit der gewonnenen Daten zu bewerten.

Abbildung 1 zeigt, wie genaue Statistiken über die Befolgung von Anweisungen gesammelt werden. | https://arxiv.org/pdf/2306.17107.pdf

Forscher von Georgia Tech, Adobe Analysis und der Stanford College entwickeln LLaVAR, was für Giant Language and Imaginative and prescient Assistant that Can Learn steht. Um winzige Textmerkmale besser zu kodieren, experimentieren sie mit der Skalierung der Eingabeauflösung von 2242 auf 3362 im Vergleich zum ursprünglichen LLaVA. Gemäß der Bewertungstechnik liefern sie empirisch die Ergebnisse zu vier textbasierten VQA-Datensätzen zusammen mit den ScienceQA-Feinabstimmungsergebnissen. Darüber hinaus verwenden sie 50 textreiche Bilder von LAION und 30 natürliche Bilder von COCO in der GPT-4-basierten Bewertung der Anweisungsbefolgung. Darüber hinaus bieten sie qualitative Analysen zur Messung komplexerer Fähigkeiten zur Befolgung von Anweisungen (z. B. auf Postern, Web site-Screenshots und Tweets).

Zusammenfassend umfassen ihre Beiträge Folgendes:

• Sie sammeln 16.000 hochwertige und 422.000 verrauschte Befehlsfolgedaten. Es wurde nachgewiesen, dass beide die Abstimmung visueller Anweisungen verbessern. Die verbesserte Kapazität ermöglicht es ihrem Modell LLaVAR, Finish-to-Finish-Interaktionen basierend auf vielfältigem On-line-Materials, einschließlich Textual content und Bildern, bereitzustellen, während die Leistung des Modells bei natürlichen Fotos nur geringfügig verbessert wird.

• Die Trainings- und Bewertungsdaten sowie die Modellmeilensteine ​​werden öffentlich zugänglich gemacht.


Aneesh Tickoo ist Beratungspraktikantin bei MarktechPost. Derzeit absolviert er seinen Bachelor-Abschluss in Datenwissenschaft und künstlicher Intelligenz am Indian Institute of Expertise (IIT) in Bhilai. Die meiste Zeit verbringt er mit der Arbeit an Projekten, die darauf abzielen, die Leistungsfähigkeit des maschinellen Lernens zu nutzen. Sein Forschungsinteresse gilt der Bildverarbeitung und er ist leidenschaftlich daran interessiert, Lösungen dafür zu entwickeln. Er liebt es, mit Menschen in Kontakt zu treten und an interessanten Projekten mitzuarbeiten.




Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here