Forscher der Alibaba Group und der Ant Group stellen VideoComposer vor: ein KI-Modell, das die Kombination mehrerer Modalitäten wie Text, Skizze, Stil und sogar Bewegung ermöglicht, um die Videogenerierung voranzutreiben

0
29


Aktuelle visuelle generative Modelle, insbesondere diffusionsbasierte Modelle, haben enorme Fortschritte bei der Automatisierung der Inhaltsgenerierung gemacht. Dank der Berechnung, der Datenskalierbarkeit und der Weiterentwicklung des Architekturdesigns können Designer realistische Bilder oder Movies erstellen, indem sie eine Textaufforderung als Eingabe verwenden. Um eine beispiellose Wiedergabetreue und Vielfalt zu erreichen, trainieren diese Methoden häufig ein robustes, durch Textual content bedingtes Diffusionsmodell anhand umfangreicher Video-Textual content- und Bild-Textual content-Datensätze. Trotz dieser bemerkenswerten Fortschritte besteht immer noch ein großes Hindernis in der schlechten Kontrolle des Synthesesystems, die seinen Nutzen erheblich einschränkt.

Die meisten aktuellen Ansätze ermöglichen eine anpassbare Erstellung durch die Einführung neuer Bedingungen über Texte hinaus, wie etwa Segmentierungskarten, Inpainting-Masken oder Skizzen. Der Komponist erweitert diese Idee, indem er ein neues generatives Paradigma vorschlägt, das auf Kompositionalität basiert und ein Bild unter einer Vielzahl von Eingabebedingungen komponieren und eine außergewöhnliche Flexibilität erreichen kann. Während Composer hervorragend darin ist, mehrstufige Bedingungen in der räumlichen Dimension zu berücksichtigen, benötigt es aufgrund der einzigartigen Eigenschaften von Videodaten möglicherweise Hilfe bei der Videoproduktion. Diese Schwierigkeit resultiert aus der vielschichtigen zeitlichen Struktur von Filmen, die ein breites Spektrum an zeitlicher Dynamik berücksichtigen und gleichzeitig die Kohärenz zwischen einzelnen Bildern wahren müssen. Daher ist die Kombination geeigneter zeitlicher Bedingungen mit räumlichen Hinweisen von entscheidender Bedeutung, um eine programmierbare Videosynthese zu ermöglichen.

Die vorangegangenen Überlegungen inspirierten Forscher der Alibaba Group und der Ant Group zur Entwicklung von VideoComposer, das eine verbesserte räumliche und zeitliche Steuerbarkeit für die Videosynthese bietet. Dies wird erreicht, indem zunächst ein Video in seine Bestandteile – Textzustand, räumlicher Zustand und kritischer zeitlicher Zustand – zerlegt und dann ein latentes Diffusionsmodell verwendet wird, um das Eingabevideo unter dem Einfluss dieser Elemente zu rekonstruieren. Um insbesondere die Inter-Body-Dynamik explizit aufzuzeichnen und eine direkte Kontrolle über die internen Bewegungen zu ermöglichen, bietet das Group auch den videospezifischen Bewegungsvektor als eine Artwork zeitliche Führung während der Videosynthese an.

Darüber hinaus stellen sie einen einheitlichen spatiotemporalen Kodierer (STC-Encoder) vor, der rahmenübergreifende Aufmerksamkeitsmechanismen nutzt, um raumzeitliche Beziehungen innerhalb der sequentiellen Eingabe zu erfassen, was zu einer verbesserten rahmenübergreifenden Konsistenz der Ausgabefilme führt. Der STC-Encoder fungiert auch als Schnittstelle und ermöglicht die einheitliche und effektive Nutzung von Steuersignalen aus einer Vielzahl von Zustandssequenzen. Daher ist VideoComposer anpassungsfähig genug, um ein Video mit verschiedenen Einstellungen zu erstellen und dabei die Synthesequalität konstant zu halten.

Wichtig ist, dass das Group im Gegensatz zu herkömmlichen Ansätzen in der Lage struggle, die Bewegungsmuster mit relativ einfachen Handbewegungen zu manipulieren, beispielsweise mit einem Pfeil, der die Flugbahn des Mondes anzeigt. Die Forscher führen mehrere qualitative und quantitative Beweise durch, die die Wirksamkeit von VideoComposer belegen. Die Ergebnisse zeigen, dass die Methode bei einer Reihe nachgelagerter generativer Aktivitäten ein bemerkenswertes Maß an Kreativität erreicht.

Techniken.


Besuche die Papier, GithubUnd Projekt. Vergessen Sie nicht, mitzumachen unser 23k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com

🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an


Tanushree Shenwai ist Beratungspraktikantin bei MarktechPost. Derzeit absolviert sie ihren B.Tech am Indian Institute of Know-how (IIT) in Bhubaneswar. Sie ist eine begeisterte Information-Science-Enthusiastin und hat großes Interesse am Anwendungsbereich künstlicher Intelligenz in verschiedenen Bereichen. Ihre Leidenschaft gilt der Erforschung neuer technologischer Fortschritte und ihrer praktischen Anwendung.




Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here