Eine Gruppe von Forschern der College of Washington, Stanford, AI2, UCSB und Google hat kürzlich das OpenFlamingo-Projekt entwickelt, das darauf abzielt, Modelle zu erstellen, die denen des Flamingo-Groups von DeepMind ähneln. OpenFlamingo-Modelle können beliebige gemischte Textual content- und Bildsequenzen verarbeiten und Textual content als Ausgabe erzeugen. Untertitelung, visuelle Beantwortung von Fragen und Bildklassifizierung sind nur einige der Aktivitäten, die davon und von der Fähigkeit des Modells, Stichproben im Kontext zu nehmen, profitieren können.
Jetzt kündigt das Group die Veröffentlichung von v2 mit fünf trainierten OpenFlamingo-Modellen auf den Ebenen 3B, 4B und 9B an. Diese Modelle sind von Open-Supply-Modellen mit weniger strengen Lizenzen als LLaMA abgeleitet, darunter die Modelle MPT-1B und 7B von Mosaic und RedPajama-3B von Collectively.XYZ.
Die Forscher nutzten das Flamingo-Modellierungsparadigma, indem sie den bereits vorab trainierten Schichten eines statischen Sprachmodells visuelle Merkmale hinzufügten. Der Imaginative and prescient-Encoder und das Sprachmodell bleiben statisch, aber die Verbindungsmodule werden mithilfe von Internet-Scraped-Bild-Textual content-Sequenzen trainiert, ähnlich wie bei Flamingo.
Das Group testete seine Untertitel-, VQA- und Klassifizierungsmodelle anhand von Imaginative and prescient-Language-Datensätzen. Ihre Ergebnisse zeigen, dass das Group zwischen seiner v1-Veröffentlichung und dem OpenFlamingo-9B v2-Modell erhebliche Fortschritte gemacht hat.
Sie kombinieren Ergebnisse aus sieben Datensätzen und fünf verschiedenen Kontexten zur Bewertung der Wirksamkeit von Modellen: keine Schüsse, vier Schüsse, acht Schüsse, sechzehn Schüsse und zweiunddreißig Schüsse. Sie vergleichen OpenFlamingo (OF)-Modelle auf den Ebenen OF-3B und OF-4B mit denen auf den Ebenen Flamingo-3B und Flamingo-9B und stellen fest, dass OpenFlamingo (OF) im Durchschnitt mehr als 80 % der entsprechenden Flamingo-Leistung erreicht . Die Forscher vergleichen ihre Ergebnisse auch mit den optimierten SoTAs, die auf PapersWithCode veröffentlicht wurden. OpenFlamingo-3B- und OpenFlamingo-9B-Modelle, die nur auf On-line-Daten vorab trainiert wurden, erreichen mit 32 kontextbezogenen Instanzen mehr als 55 % der fein abgestimmten Leistung. Die Modelle von OpenFlamingo hinken denen von DeepMind um durchschnittlich 10 % im 0-Schuss und 15 % im 32-Schuss hinterher.
Das Group macht kontinuierlich Fortschritte bei der Schulung und Bereitstellung modernster multimodaler Modelle. Als nächstes zielen sie darauf ab, die Qualität der für das Vortraining verwendeten Daten zu verbessern.
Besuche die Github Repo Und Blog. Vergessen Sie nicht, mitzumachen unser 25k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com
Empfohlene Instruments:
🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an
Tanushree Shenwai ist Beratungspraktikantin bei MarktechPost. Derzeit absolviert sie ihren B.Tech am Indian Institute of Know-how (IIT) in Bhubaneswar. Sie ist eine begeisterte Information-Science-Enthusiastin und hat großes Interesse am Anwendungsbereich künstlicher Intelligenz in verschiedenen Bereichen. Ihre Leidenschaft gilt der Erforschung neuer technologischer Fortschritte und ihrer praktischen Anwendung.