In den letzten Jahren gab es eine bemerkenswerte Entwicklung robuster modalübergreifender Modelle, die in der Lage sind, eine Artwork von Informationen aus einer anderen zu generieren, beispielsweise Textual content in Textual content, Bilder oder Audio umzuwandeln. Ein Beispiel ist die bemerkenswerte Steady Diffusion, die aus einer Eingabeaufforderung, die das erwartete Ergebnis beschreibt, atemberaubende Bilder erzeugen kann.
Obwohl diese Modelle realistische Ergebnisse liefern, stoßen sie bei der praktischen Anwendung auf Einschränkungen, wenn mehrere Modalitäten nebeneinander existieren und interagieren. Nehmen wir an, wir möchten ein Bild aus einer Textbeschreibung wie „süßer Welpe, der auf einer Ledercouch schläft“ generieren. Das reicht jedoch nicht aus. Nachdem wir das Ausgabebild eines Textual content-zu-Bild-Modells erhalten haben, möchten wir auch hören, wie sich eine solche Scenario anhören würde, wenn beispielsweise der Welpe auf der Sofa schnarcht. In diesem Fall bräuchten wir ein anderes Modell, um den Textual content bzw. das resultierende Bild in einen Ton umzuwandeln. Obwohl die Verbindung mehrerer spezifischer generativer Modelle in einem mehrstufigen Generierungsszenario möglich ist, kann dieser Ansatz daher umständlich und langsam sein. Darüber hinaus mangelt es unabhängig generierten unimodalen Streams an Konsistenz und Ausrichtung, wenn sie in einer Nachbearbeitungsmethode kombiniert werden, beispielsweise durch die Synchronisierung von Video und Audio.
Ein umfassendes und vielseitiges Any-to-Any-Modell könnte gleichzeitig kohärente Video-, Audio- und Textbeschreibungen generieren, was das Gesamterlebnis verbessert und den Zeitaufwand reduziert.
Um dieses Ziel zu erreichen, wurde Composable Diffusion (CoDi) entwickelt, um beliebige Kombinationen von Modalitäten gleichzeitig zu verarbeiten und zu generieren.
Die Architekturübersicht finden Sie hier unten.
Das Trainieren eines Modells für die Verarbeitung beliebiger Eingabemodalitäten und die versatile Generierung verschiedener Ausgabekombinationen erfordert erhebliche Rechen- und Datenanforderungen.
Dies ist auf das exponentielle Wachstum möglicher Kombinationen von Enter- und Output-Modalitäten zurückzuführen. Darüber hinaus ist die Beschaffung abgestimmter Trainingsdaten für viele Gruppen von Modalitäten sehr begrenzt und nicht vorhanden, sodass es unmöglich ist, das Modell mit allen möglichen Eingabe-Ausgabe-Kombinationen zu trainieren. Um dieser Herausforderung zu begegnen, wird eine Strategie vorgeschlagen, um mehrere Modalitäten im Schritt der Eingabekonditionierung und Generierungsdiffusion aufeinander abzustimmen. Darüber hinaus modelliert eine „Bridging Alignment“-Strategie für kontrastives Lernen effizient die exponentielle Anzahl von Enter-Output-Kombinationen mit einer linearen Anzahl von Trainingszielen.
Um ein Modell zu erhalten, das in der Lage ist, Any-to-Any-Kombinationen zu generieren und eine qualitativ hochwertige Generierung aufrechtzuerhalten, ist ein umfassender Modellentwurfs- und Trainingsansatz erforderlich, der verschiedene Datenressourcen nutzt. Die Forscher haben einen integrativen Ansatz zum Aufbau von CoDi gewählt. Zunächst trainieren sie ein latentes Diffusionsmodell (LDM) für jede Modalität, etwa Textual content, Bild, Video und Audio. Diese LDMs können unabhängig und parallel trainiert werden, wodurch eine hervorragende Generierungsqualität für jede einzelne Modalität unter Verwendung verfügbarer modalitätsspezifischer Trainingsdaten gewährleistet wird. Diese Daten bestehen aus Eingaben mit einer oder mehreren Modalitäten und einer Ausgabemodalität.
Bei der bedingten modalitätsübergreifenden Generierung, bei der Kombinationen von Modalitäten beteiligt sind, wie etwa die Generierung von Bildern mithilfe von Audio- und Sprachansagen, werden die Eingabemodalitäten in einen gemeinsamen Funktionsraum projiziert. Dieser multimodale Konditionierungsmechanismus bereitet das Diffusionsmodell auf die Konditionierung auf jede Modalität oder Kombination von Modalitäten vor, ohne dass ein direktes Coaching für bestimmte Einstellungen erforderlich ist. Das Ausgabe-LDM kümmert sich dann um die kombinierten Eingabemerkmale und ermöglicht so eine modalitätsübergreifende Generierung. Dieser Ansatz ermöglicht es CoDi, verschiedene Modalitätskombinationen effektiv zu handhaben und qualitativ hochwertige Ergebnisse zu generieren.
Die zweite Trainingsstufe in CoDi erleichtert die Fähigkeit des Modells, mit Many-to-Many-Generierungsstrategien umzugehen, und ermöglicht so die gleichzeitige Generierung verschiedener Kombinationen von Ausgabemodalitäten. Nach aktuellem Kenntnisstand ist CoDi das erste KI-Modell, das über diese Fähigkeit verfügt. Möglich wird dieser Erfolg durch die Einführung eines Cross-Consideration-Moduls für jeden Diffusor und eines Umgebungsencoders V, der die latenten Variablen aus verschiedenen LDMs in einen gemeinsamen latenten Raum projiziert.
In dieser Section werden die Parameter des LDM eingefroren und nur die Queraufmerksamkeitsparameter und V trainiert. Da der Umgebungsencoder die Darstellungen verschiedener Modalitäten ausrichtet, kann ein LDM mit jedem Satz gemeinsam generierter Modalitäten durch Interpolation der Ausgabedarstellung mit V kreuzgreifend arbeiten. Diese nahtlose Integration ermöglicht es CoDi, beliebige Kombinationen von Modalitäten zu generieren, ohne dass ein Coaching erforderlich ist jede mögliche Generationskombination. Dadurch wird die Anzahl der Trainingsziele von exponentiell auf linear reduziert, was zu einer erheblichen Effizienz im Trainingsprozess führt.
Nachfolgend werden für jede Generierungsaufgabe einige vom Modell erzeugte Ausgabebeispiele aufgeführt.
Dies battle die Zusammenfassung von CoDi, einem effizienten modalübergreifenden Generierungsmodell für Any-to-Any-Generierung mit modernster Qualität. Wenn Sie interessiert sind, können Sie unter den folgenden Hyperlinks mehr über diese Technik erfahren.
Besuche die Papier Und Github. Vergessen Sie nicht, mitzumachen unser 25k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com
Empfohlene Instruments Aus AI Tools Club
🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an
Daniele Lorenzi erhielt seinen M.Sc. in IKT für Web- und Multimediatechnik im Jahr 2021 an der Universität Padua, Italien. Er ist ein Ph.D. Kandidat am Institut für Informationstechnologie (ITEC) der Alpen-Adria-Universität (AAU) Klagenfurt. Derzeit arbeitet er im Christian Doppler Laboratory ATHENA und seine Forschungsinteressen umfassen adaptives Videostreaming, immersive Medien, maschinelles Lernen und QoS/QoE-Bewertung.