Multimodale Massive Language Fashions (MLLMs) haben sich als Allzweckschnittstelle bei verschiedenen Aktivitäten bewährt, darunter Sprach-, Seh- und Seh-Sprach-Aufgaben. Unter Null-Schuss- und Wenig-Schuss-Bedingungen können MLLMs generische Modalitäten wie Texte, Bilder und Audio wahrnehmen und mithilfe von Freiformtexten Antworten produzieren. In dieser Studie ermöglichen sie multimodalen großen Sprachmodellen, sich zu etablieren. Für Imaginative and prescient-Sprach-Aktivitäten kann die Erdungsfähigkeit eine praktischere und effektivere Mensch-KI-Schnittstelle bieten. Das Modell kann diesen Bildbereich anhand seiner geografischen Koordinaten interpretieren, sodass der Benutzer direkt auf das Component oder den Bereich im Bild zeigen kann, anstatt lange Textbeschreibungen einzugeben, um darauf zu verweisen.
Die Erdungsfunktion des Modells ermöglicht es ihm auch, visuelle Antworten (z. B. Begrenzungsrahmen) bereitzustellen, die andere visuelle Sprachaufgaben wie das Verstehen verweisender Ausdrücke unterstützen können. Im Vergleich zu Antworten, die nur auf Textual content basieren, sind visuelle Antworten präziser und klären Koreferenz-Mehrdeutigkeiten. Die Erdungskapazität der resultierenden Freitextantwort kann Nominalphrasen und Referenzbegriffe mit den Bildbereichen verbinden, um genauere, informativere und gründlichere Antworten zu erhalten. Forscher von Microsoft Analysis stellen KOSMOS-2 vor, ein multimodales großes Sprachmodell, das auf KOSMOS-1 aufbaut und grundlegende Funktionen bietet. Die Aufgabe zur Vorhersage des nächsten Wortes wird verwendet, um das kausale Sprachmodell KOSMOS-2 basierend auf Transformer zu trainieren.
Sie erstellen einen Datensatz im Webmaßstab geerdeter Bild-Textual content-Paare und integrieren ihn in die multimodalen Korpora in KOSMOS-1, um das Modell so zu trainieren, dass es das Erdungspotenzial vollständig nutzt. Eine Teilmenge der Bild-Textual content-Paare von LAION-2B und COYO-700M bildet die Grundlage für die geerdeten Bild-Textual content-Paare. Sie bieten eine Pipeline zum Extrahieren und Verbinden von Textabschnitten aus der Bildunterschrift, z. B. Nominalphrasen und Referenzausdrücken, mit den räumlichen Positionen (z. B. Begrenzungsrahmen) der jeweiligen Objekte oder Regionen im Bild. Sie übersetzen die geografischen Koordinaten des Begrenzungsrahmens in eine Reihe von Standort-Tokens, die anschließend nach den entsprechenden Textbereichen hinzugefügt werden. Das Datenformat fungiert als „Hyperlink“, um die Bildelemente mit der Bildunterschrift zu verknüpfen.
Die Ergebnisse der Experimente zeigen, dass KOSMOS-2 nicht nur bei den Erdungsaufgaben (Phrasenerdung und verweisendes Ausdrucksverständnis) und verweisenden Aufgaben (Erzeugung verweisender Ausdrücke) eine bewundernswerte Leistung erbringt, sondern auch bei den in KOSMOS bewerteten Sprach- und Imaginative and prescient-Sprachaufgaben konkurrenzfähig abschneidet. 1. Abbildung 1 zeigt, wie KOSMOS-2 durch die Einbindung der Erdungsfunktion für zusätzliche nachgelagerte Aufgaben genutzt werden kann, wie z. B. geerdete Bildunterschriften und geerdete visuelle Fragenbeantwortung. Eine On-line-Demo ist auf GitHub verfügbar.
Besuche die Papier Und Github-Link. Vergessen Sie nicht, mitzumachen unser 25k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com
🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an
Aneesh Tickoo ist Beratungspraktikantin bei MarktechPost. Derzeit absolviert er seinen Bachelor-Abschluss in Datenwissenschaft und künstlicher Intelligenz am Indian Institute of Know-how (IIT) in Bhilai. Die meiste Zeit verbringt er mit der Arbeit an Projekten, die darauf abzielen, die Leistungsfähigkeit des maschinellen Lernens zu nutzen. Sein Forschungsinteresse gilt der Bildverarbeitung und er ist leidenschaftlich daran interessiert, Lösungen dafür zu entwickeln. Er liebt es, mit Menschen in Kontakt zu treten und an interessanten Projekten mitzuarbeiten.