Vielschichtige Modelle streben danach, Daten aus verschiedenen Quellen, einschließlich geschriebener Sprache, Bildern und Movies, zu integrieren, um verschiedene Funktionen auszuführen. Diese Modelle haben ein beträchtliches Potenzial für das Verstehen und Generieren von Inhalten gezeigt, die visuelle und textliche Daten verschmelzen.
Eine entscheidende Komponente vielschichtiger Modelle ist die Instruktionsoptimierung, bei der es um die Feinabstimmung des Modells auf der Grundlage natürlichsprachlicher Anweisungen geht. Dadurch kann das Modell die Absichten der Nutzer besser erfassen und präzise und relevante Antworten generieren. Die Optimierung von Anweisungen wurde in großen Sprachmodellen (LLMs) wie GPT-2 und GPT-3 effektiv eingesetzt, um es ihnen zu ermöglichen, Anweisungen zu befolgen, um reale Aufgaben zu erfüllen.
Bestehende Ansätze in multimodalen Modellen können in die Perspektiven Systemdesign und durchgängig trainierbare Modelle kategorisiert werden. Die Systemdesign-Perspektive verbindet verschiedene Modelle mithilfe eines Versandplaners wie ChatGPT, es mangelt jedoch an Trainingsflexibilität und kann kostspielig sein. Die Perspektive der durchgängig trainierbaren Modelle integriert Modelle aus anderen Modalitäten, kann jedoch hohe Schulungskosten oder eine begrenzte Flexibilität mit sich bringen. Frühere Datensätze zur Befehlsoptimierung in multimodalen Modellen enthalten keine kontextbezogenen Beispiele. Ein kürzlich von einem Forschungsteam aus Singapur vorgeschlagener neuer Ansatz führt eine kontextbezogene Befehlsoptimierung ein und erstellt Datensätze mit kontextbezogenen Beispielen, um diese Lücke zu schließen.
Zu den Hauptbeiträgen dieser Arbeit gehören:
- Die Einführung des MIMIC-IT-Datensatzes zur Befehlsoptimierung in multimodalen Modellen.
- Die Entwicklung des Otter-Modells mit verbesserten Fähigkeiten zur Befolgung von Anweisungen und zum kontextbezogenen Lernen.
- Die Optimierung der OpenFlamingo-Implementierung für eine einfachere Zugänglichkeit.
Diese Beiträge bieten Forschern einen wertvollen Datensatz, ein verbessertes Modell und einen benutzerfreundlicheren Rahmen für die Weiterentwicklung der multimodalen Forschung.
Konkret stellen die Autoren den MIMIC-IT-Datensatz vor, der darauf abzielt, die Befehlsverständnisfähigkeiten von OpenFlamingo zu verbessern und gleichzeitig seine kontextbezogene Lernfähigkeit zu bewahren. Der Datensatz besteht aus Bild-Textual content-Paaren mit kontextuellen Beziehungen, während OpenFlamingo darauf abzielt, Textual content für ein abgefragtes Bild-Textual content-Paar basierend auf kontextbezogenen Beispielen zu generieren. Der MIMIC-IT-Datensatz wird eingeführt, um das Befehlsverständnis von OpenFlamingo zu verbessern und gleichzeitig das kontextbezogene Lernen aufrechtzuerhalten. Es enthält Bild-Anweisung-Antwort-Tripletts und den entsprechenden Kontext. OpenFlamingo ist ein Framework, das es multimodalen Modellen ermöglicht, Textual content basierend auf Bildern und kontextbezogenen Beispielen zu generieren.
Während des Trainings folgt das Otter-Modell dem OpenFlamingo-Paradigma, indem es die vorab trainierten Encoder einfriert und spezifische Module feinabstimmt. Die Trainingsdaten folgen einem bestimmten Format mit Bild, Benutzeranweisungen, „GPT“-generierten Antworten und a [endofchunk] Zeichen. Das Modell wird mithilfe von Kreuzentropieverlust trainiert, wobei die Token Lösungen für Vorhersageziele trennen.
Die Autoren integrierten Otter in Hugging Face Transformers und ermöglichten so eine einfache Wiederverwendung und Integration in die Pipelines der Forscher. Sie optimierten das Modell für das Coaching auf 4×RTX-3090-GPUs und unterstützten Absolutely Sharded Knowledge Parallel (FSDP) und DeepSpeed für eine verbesserte Effizienz. Sie bieten auch ein Skript zum Konvertieren des ursprünglichen OpenFlamingo-Checkpoints in das Hugging Face Mannequin-Format an. Was Demonstrationen betrifft, schneidet Otter im Vergleich zu OpenFlamingo besser bei der Befolgung von Benutzeranweisungen ab und weist fortgeschrittene Denkfähigkeiten auf. Es demonstriert die Fähigkeit, mit komplexen Szenarien umzugehen und Kontextwissen anzuwenden. Otter unterstützt auch multimodales Lernen im Kontext und schneidet intestine bei visuellen Frage-Antwort-Aufgaben ab, indem es Informationen aus Bildern und kontextbezogenen Beispielen nutzt, um umfassende und genaue Antworten zu liefern.
Zusammenfassend lässt sich sagen, dass diese Forschung zu multimodalen Modellen beiträgt, indem sie den MIMIC-IT-Datensatz einführt, das Otter-Modell mit verbesserten Anweisungen zur Befolgung von Anweisungen und kontextbezogenen Lernfähigkeiten erweitert und die Implementierung von OpenFlamingo für eine einfachere Zugänglichkeit optimiert. Durch die Integration von Otter in Hugging Face Transformers können Forscher das Modell mit minimalem Aufwand nutzen. Die nachgewiesenen Fähigkeiten von Otter, Benutzeranweisungen zu befolgen, in komplexen Szenarien zu argumentieren und multimodales Lernen im Kontext durchzuführen, veranschaulichen die Fortschritte beim multimodalen Verständnis und der Generierung. Diese Beiträge liefern wertvolle Ressourcen und Erkenntnisse für zukünftige Forschung und Entwicklung in multimodalen Modellen.
Besuche die Papier, Projekt Und Github. Vergessen Sie nicht, mitzumachen unser 24k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com
Empfohlene Instruments Aus AI Tools Club
🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an
Mahmoud ist Doktorand im Bereich maschinelles Lernen. Er hält auch einen
Bachelor-Abschluss in Physik und Grasp-Abschluss in
Telekommunikations- und Netzwerksysteme. Seine aktuellen Bereiche von
Die Forschung befasst sich mit Laptop Imaginative and prescient, Börsenvorhersage und Tiefgründigkeit
Lernen. Er verfasste mehrere wissenschaftliche Artikel über Personenre-
Identifizierung und Untersuchung der Robustheit und Stabilität von Tiefen
Netzwerke.