Forscher aus China stellen „Make-Your-Video“ vor: eine Methode zur Videotransformation durch den Einsatz von Text- und Strukturanleitungen

0
26


Movies sind ein häufig verwendetes digitales Medium, das für seine Fähigkeit geschätzt wird, lebendige und ansprechende visuelle Erlebnisse zu bieten. Durch die allgegenwärtige Nutzung von Smartphones und Digitalkameras ist die Aufzeichnung von Stay-Occasions mit der Kamera einfacher geworden. Allerdings wird der Prozess deutlich schwieriger und teurer, wenn man ein Video produziert, um die Idee visuell darzustellen. Dies erfordert häufig Berufserfahrung in den Bereichen Computergrafik, Modellierung und Animationserstellung. Glücklicherweise haben neue Entwicklungen im Bereich Textual content-zu-Video es ermöglicht, dieses Verfahren zu rationalisieren, indem nur Texteingabeaufforderungen verwendet werden.

Abbildung 1 zeigt, wie das Modell zeitlich kohärente Filme erzeugen kann, die den Führungsabsichten entsprechen, wenn Textbeschreibungen und Bewegungsstrukturen als Eingaben gegeben werden. Sie demonstrieren die Ergebnisse der Videoproduktion in verschiedenen Anwendungen, darunter (oben) die Einrichtung realer Szenen für Movies, (mitte) die dynamische 3D-Szenenmodellierung für Movies und (unten) das erneute Rendern von Movies, indem sie Strukturanweisungen aus verschiedenen Quellen erstellen.

Sie argumentieren, dass Sprache zwar ein bekanntes und flexibles Beschreibungsinstrument sei, dass sie jedoch möglicherweise erfolgreicher sein müsse, um präzisere Kontrolle zu ermöglichen. Stattdessen zeichnet es sich durch die Vermittlung abstrakter globaler Kontexte aus. Dies ermutigt uns, die Erstellung maßgeschneiderter Movies zu untersuchen, bei denen Textual content die Umgebung und die Bewegung in eine bestimmte Richtung beschreibt. Da es sich bei bildweisen Tiefenkarten um 3D-fähige 2D-Daten handelt, die sich intestine für die Aufgabe der Videoerstellung eignen, werden sie speziell zur Beschreibung der Bewegungsstruktur ausgewählt. Die Strukturrichtung ihrer Methode kann relativ einfach sein, sodass sie auch von Nicht-Experten problemlos erstellt werden kann.

Diese Architektur gibt dem generativen Modell die Freiheit, realistische Inhalte zu generieren, ohne auf sorgfältig erstellte Eingaben angewiesen zu sein. Beispielsweise kann die Erstellung einer fotorealistischen Außenumgebung durch einen Szenarioaufbau geleitet werden, bei dem in einem Büro gefundene Waren zum Einsatz kommen (Abbildung 1 (oben)). Die physischen Objekte können mithilfe von 3D-Modellierungssoftware durch bestimmte geometrische Teile oder jedes leicht verfügbare 3D-Asset ersetzt werden (Abbildung 1 (Mitte)). Eine weitere Möglichkeit besteht darin, die berechnete Tiefe aus bereits vorhandenen Aufnahmen zu nutzen (Abbildung 1 (unten)). Um ihre Filme wie vorgesehen anzupassen, haben Benutzer dank der Mischung aus Textual content- und Strukturanweisungen sowohl Flexibilität als auch Kontrolle.

Zu diesem Zweck verwenden Forscher von CUHK, Tencent AI Lab und HKUST ein Latent Diffusion Mannequin (LDM), das ein Diffusionsmodell in einem engen latenten Raum niedrigerer Dimension anwendet, um die Verarbeitungskosten zu senken. Sie schlagen vor, das Coaching räumlicher Module (für die Bildsynthese) und zeitlicher Module (für zeitliche Kohärenz) für ein Open-World-Videoproduktionsmodell zu trennen. Dieses Design basiert auf zwei Hauptfaktoren: (i) Das separate Coaching der Modellkomponenten reduziert den Bedarf an Rechenressourcen, was besonders für ressourcenintensive Aufgaben wichtig ist; und (ii) da Bilddatensätze eine viel größere Vielfalt an Konzepten umfassen als die vorhandenen Videodatensätze, hilft das Vortraining des Modells für die Bildsynthese dabei, die verschiedenen visuellen Konzepte zu übernehmen und sie auf die Videogenerierung zu übertragen.

Das Erreichen zeitlicher Kohärenz ist eine bedeutende Aufgabe. Sie behalten sie als eingefrorene räumliche Blöcke bei und führen die zeitlichen Blöcke ein, die mithilfe eines vorab trainierten Bild-LDM die Kohärenz zwischen Bildern im gesamten Videodatensatz erlernen sollen. Insbesondere integrieren sie räumliche und zeitliche Faltungen, wodurch die Flexibilität der vorab trainierten Module erhöht und die zeitliche Stabilität verbessert wird. Darüber hinaus verwenden sie eine unkomplizierte, aber leistungsstarke Methode der kausalen Aufmerksamkeitsmaske, um eine längere Videosynthese (d. h. das Vierfache der Trainingsdauer) zu ermöglichen und so das Risiko einer Qualitätsverschlechterung erheblich zu reduzieren.

Qualitative und quantitative Auswertungen zeigen, dass die vorgeschlagene Technik die Basislinien übertrifft, insbesondere im Hinblick auf zeitliche Kohärenz und Treue zu Benutzeranweisungen. Die Effizienz der vorgeschlagenen Designs, die für den Betrieb des Ansatzes wesentlich sind, wird durch Ablationsexperimente gestützt. Darüber hinaus demonstrierten sie mehrere faszinierende Anwendungen, die durch ihre Methodik ermöglicht wurden, und die Ergebnisse veranschaulichen das Potenzial für reale Anwendungen.

Im Folgenden finden Sie eine Zusammenfassung ihrer Beiträge: • Sie bieten textliche und strukturelle Unterstützung, um eine effektive Methode zur Produktion maßgeschneiderter Movies vorzustellen. Ihr Ansatz liefert sowohl quantitativ als auch qualitativ die besten Ergebnisse für die regulierte Textual content-to-Video-Produktion. • Sie bieten eine Methode zur Verwendung vorab trainierter Bild-LDMs zur Generierung von Movies, die reichhaltige visuelle Vorstellungen übernehmen und eine gute zeitliche Kohärenz aufweisen. • Sie umfassen einen zeitlichen Maskierungsansatz, um die Dauer der Videosynthese zu verlängern und gleichzeitig Qualitätsverluste zu minimieren.


Besuche die Papier, Projekt Und Github. Vergessen Sie nicht, mitzumachen unser 23k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com

🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an


Aneesh Tickoo ist Beratungspraktikantin bei MarktechPost. Derzeit absolviert er seinen Bachelor-Abschluss in Datenwissenschaft und künstlicher Intelligenz am Indian Institute of Expertise (IIT) in Bhilai. Die meiste Zeit verbringt er mit der Arbeit an Projekten, die darauf abzielen, die Leistungsfähigkeit des maschinellen Lernens zu nutzen. Sein Forschungsinteresse gilt der Bildverarbeitung und er ist leidenschaftlich daran interessiert, Lösungen dafür zu entwickeln. Er liebt es, mit Menschen in Kontakt zu treten und an interessanten Projekten mitzuarbeiten.




Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here