Bewältigung mehrerer Aufgaben mit einem einzigen visuellen Sprachmodell

0
24


Ein zentraler Aspekt der Intelligenz ist die Fähigkeit, nach einer kurzen Anweisung schnell zu lernen, wie man eine neue Aufgabe ausführt. Beispielsweise kann ein Sort echte Tiere im Zoo erkennen, nachdem es ein paar Bilder der Tiere in einem Buch gesehen hat, obwohl es Unterschiede zwischen den beiden Tieren gibt. Damit ein typisches visuelles Modell jedoch eine neue Aufgabe lernen kann, muss es an Zehntausenden von Beispielen trainiert werden, die speziell für diese Aufgabe gekennzeichnet sind. Wenn das Ziel darin besteht, Tiere in einem Bild zu zählen und zu identifizieren, wie bei „drei Zebras“, müsste man Tausende von Bildern sammeln und jedes Bild mit ihrer Anzahl und Artwork versehen. Dieser Prozess ist ineffizient, teuer und ressourcenintensiv, da er große Mengen annotierter Daten erfordert und jedes Mal, wenn es mit einer neuen Aufgabe konfrontiert wird, ein neues Modell trainieren muss. Im Rahmen der Mission von DeepMind, Intelligenz zu lösen, haben wir untersucht, ob ein alternate options Modell diesen Prozess einfacher und effizienter machen könnte, wenn nur begrenzte aufgabenspezifische Informationen vorliegen.

Heute, im Preprint unseres Papierwir stellen vor Flamingo, ein einzelnes visuelles Sprachmodell (VLM), das einen neuen Stand der Technik beim Wenig-Schuss-Lernen für ein breites Spektrum offener multimodaler Aufgaben setzt. Dies bedeutet, dass Flamingo eine Reihe schwieriger Probleme mit nur wenigen aufgabenspezifischen Beispielen (in „einigen Schüssen“) lösen kann, ohne dass zusätzliche Schulung erforderlich ist. Die einfache Benutzeroberfläche von Flamingo macht dies möglich, indem sie als Eingabe eine Eingabeaufforderung verwendet, die aus verschachtelten Bildern, Movies und Textual content besteht, und dann die zugehörige Sprache ausgibt.

Ähnlich dem Verhalten von große Sprachmodelle (LLMs), die eine Sprachaufgabe lösen können, indem sie Beispiele der Aufgabe in ihrer Textaufforderung verarbeiten, kann Flamingos visuelle und Textschnittstelle das Modell zur Lösung einer multimodalen Aufgabe steuern. Anhand einiger Beispielpaare aus visuellen Eingaben und erwarteten Textantworten, die in Flamingos Eingabeaufforderung zusammengestellt wurden, kann dem Modell eine Frage mit einem neuen Bild oder Video gestellt werden und dann eine Antwort generiert werden.

Abbildung 1. Anhand der beiden Beispiele von Tierbildern und einem Textual content, der ihren Namen identifiziert, und einem Kommentar dazu, wo sie zu finden sind, kann Flamingo diesen Stil nachahmen, indem er ein neues Bild erhält, um eine relevante Beschreibung auszugeben: „Dies ist ein Flamingo.“ Man findet sie in der Karibik.“

Bei den 16 von uns untersuchten Aufgaben übertrifft Flamingo alle bisherigen Lernansätze mit wenigen Schüssen, wenn nur vier Beispiele professional Aufgabe gegeben werden. In mehreren Fällen derselbe Flamingo Das Modell übertrifft Methoden, die für jede Aufgabe einzeln fein abgestimmt und optimiert werden und um mehrere Größenordnungen aufgabenspezifischere Daten verwenden. Dies sollte es Laien ermöglichen, schnell und einfach genaue visuelle Sprachmodelle für neue Aufgaben zu verwenden.

Figur 2. Hyperlinks: Leistung des Flamingo bei wenigen Schüssen bei 16 verschiedenen multimodalen Aufgaben im Vergleich zu aufgabenspezifischer Leistung auf dem neuesten Stand der Technik. Rechts: Beispiele für erwartete Inputs und Outputs für drei unserer 16 Benchmarks.

In der Praxis verschmilzt Flamingo große Sprachmodelle mit leistungsstarken visuellen Darstellungen – jeweils separat vorab trainiert und eingefroren – und fügt dazwischen neuartige Architekturkomponenten hinzu. Dann wird es mit einer Mischung komplementärer, groß angelegter multimodaler Daten trainiert, die ausschließlich aus dem Web stammen, ohne dass für maschinelles Lernen annotierte Daten verwendet werden. Nach dieser Methode beginnen wir mit Chinchillaunser kürzlich eingeführtes rechenoptimales 70B-Parameter-Sprachmodell, um unseren endgültigen Flamingo zu trainieren Modell, ein 80B-Parameter-VLM. Nach Abschluss dieses Trainings kann Flamingo durch einfaches Lernen mit wenigen Schüssen direkt an Sehaufgaben angepasst werden, ohne dass eine zusätzliche aufgabenspezifische Abstimmung erforderlich ist.

Wir haben auch die qualitativen Fähigkeiten des Modells über unsere aktuellen Benchmarks hinaus getestet. Als Teil dieses Prozesses verglichen wir die Leistung unseres Modells bei der Beschriftung von Bildern mit Bezug zu Geschlecht und Hautfarbe und ließen die von unserem Modell generierten Beschriftungen über die Perspective API von Google laufen, die die Toxizität von Textual content bewertet. Obwohl die ersten Ergebnisse positiv sind, ist mehr Forschung zur Bewertung ethischer Risiken in multimodalen Systemen von entscheidender Bedeutung, und wir fordern die Menschen dringend auf, diese Fragen sorgfältig zu bewerten und zu prüfen, bevor sie über den Einsatz solcher Systeme in der realen Welt nachdenken.

Multimodale Fähigkeiten sind für wichtige KI-Anwendungen unerlässlich, wie z Hilfe für Sehbehinderte bei alltäglichen visuellen Herausforderungen bzw Verbesserung der Identifizierung hasserfüllter Inhalte im Web. Flamingo ermöglicht eine effiziente Anpassung an diese Beispiele und andere Aufgaben im laufenden Betrieb, ohne das Modell zu ändern. Interessanterweise demonstriert das Modell sofort einsatzbereite multimodale Dialogfähigkeiten, wie hier zu sehen ist.

Abbildung 3 – Flamingo kann sofort an einem multimodalen Dialog teilnehmen, hier wird ein unwahrscheinliches „Suppenmonster“-Bild besprochen, das von generiert wurde DALL·E 2 von OpenAI (hyperlinks) und das Vorbeigehen und Identifizieren der Berühmten Stroop-Test (Rechts).

Flamingo ist eine effektive und effiziente Allzweck-Modellfamilie, die mit minimalen aufgabenspezifischen Beispielen auf Bild- und Videoverständnisaufgaben angewendet werden kann. Modelle wie Flamingo versprechen großen Nutzen für die Gesellschaft auf praktische Weise und wir verbessern weiterhin ihre Flexibilität und Fähigkeiten, damit sie zum Nutzen aller sicher eingesetzt werden können. Die Fähigkeiten von Flamingo ebnen den Weg für umfassende Interaktionen mit erlernten visuellen Sprachmodellen, die eine bessere Interpretierbarkeit und aufregende neue Anwendungen ermöglichen können, wie etwa ein visueller Assistent, der Menschen im Alltag unterstützt – und wir sind von den bisherigen Ergebnissen begeistert.



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here