Ziel der textgesteuerten Videobearbeitung ist es, ohne manuelle Arbeit aus Textansagen und vorhandenem Videomaterial neue Movies zu erstellen. Diese Technologie hat das Potenzial, erhebliche Auswirkungen auf verschiedene Branchen zu haben, darunter Social-Media-Inhalte, Advertising und Werbung. Um in diesem Prozess erfolgreich zu sein, müssen die modifizierten Filme den Inhalt des Originalvideos genau wiedergeben, die zeitliche Kohärenz zwischen den erstellten Bildern beibehalten und mit den Zielvorgaben übereinstimmen. Dennoch kann es eine Herausforderung sein, alle diese Anforderungen gleichzeitig zu erfüllen. Das Trainieren eines Textual content-zu-Video-Modells mit nur großen Mengen an Textual content-Video-Daten erfordert viel Rechenleistung.
Die textgesteuerten Zero-Shot- und One-Shot-Videobearbeitungsansätze haben jüngste Entwicklungen bei groß angelegten Textual content-zu-Bild-Diffusionsmodellen und programmierbarer Bildbearbeitung genutzt. Da keine zusätzlichen Videodaten erforderlich sind, haben diese Fortschritte gezeigt, dass Filme als Reaktion auf eine Reihe von Textbefehlen intestine verändert werden können. Empirische Daten zeigen jedoch, dass aktuelle Techniken trotz der enormen Fortschritte bei der Ausrichtung der Arbeit an Texthinweisen immer noch nicht in der Lage sind, die Ausgabe ordnungsgemäß und angemessen zu verwalten und gleichzeitig die zeitliche Konsistenz aufrechtzuerhalten. Forscher der Tsinghua-Universität, der Renmin-Universität China, ShengShu und des Pazhou Laboratory stellen ControlVideo vor, eine hochmoderne Methode, die auf einem vorab trainierten Textual content-zu-Bild-Diffusionsmodell für eine originalgetreue und zuverlässige textgesteuerte Videobearbeitung basiert.
Inspiriert von ControlNet verstärkt ControlVideo die Richtung des Quellvideos, indem es visuelle Bedingungen wie Canny-Edge-Maps, HED-Ränder und Tiefenkarten für alle Frames als zusätzliche Eingaben einbezieht. Ein auf dem Diffusionsmodell vorab trainiertes ControlNet verarbeitet diese visuellen Umstände. Vergleicht man solche Umstände mit den text- und aufmerksamkeitsbasierten Taktiken, die heute in textgesteuerten Videobearbeitungsansätzen verwendet werden, ist bemerkenswert, dass sie eine präzisere und anpassungsfähigere Artwork der Videosteuerung bieten. Um die Wiedergabetreue und zeitliche Konsistenz zu verbessern und gleichzeitig eine Überanpassung zu vermeiden, wurden die Aufmerksamkeitsmodule sowohl im Diffusionsmodell als auch im ControlNet sorgfältig erstellt und optimiert.
Genauer gesagt wandeln sie die anfängliche räumliche Selbstaufmerksamkeit in beiden Modellen in Keyframe-Aufmerksamkeit um, indem sie alle Frames mit einem ausgewählten Body in Einklang bringen. Das Diffusionsmodell umfasst außerdem zeitliche Aufmerksamkeitsmodule als zusätzliche Zweige, gefolgt von einer Null-Faltungsschicht, um die Ausgabe vor der Feinabstimmung zu bewahren. Sie verwenden die ursprünglichen räumlichen Selbstaufmerksamkeitsgewichte als Initialisierung sowohl für Keyframes als auch für zeitliche Aufmerksamkeit im entsprechenden Netzwerk, da beobachtet wurde, dass unterschiedliche Aufmerksamkeitsmechanismen die Beziehungen zwischen verschiedenen Positionen modellieren, die Beziehungen zwischen Bildmerkmalen jedoch konsistent modellieren.
Um künftige Forschungen zu Videodiffusionsmodell-Backbones für One-Shot-Tuning zu leiten, führen sie eine umfassende empirische Untersuchung der wesentlichen Elemente von ControlVideo durch. Diese Arbeit untersucht Schlüssel- und Wertedesigns, Parameter für die Feinabstimmung der Selbstaufmerksamkeit, Initialisierungstechniken und die Einbeziehung lokaler und globaler Orte zur Einführung zeitlicher Aufmerksamkeit. Ihren Erkenntnissen zufolge kann das Haupt-UNet, mit Ausnahme des Mittelblocks, darauf trainiert werden, optimum zu funktionieren, indem ein Keyframe sowohl als Schlüssel als auch als Wert ausgewählt, WO fein abgestimmt und zeitliche Aufmerksamkeit mit Selbstaufmerksamkeit (in diesem Fall Keyframe-Aufmerksamkeit) kombiniert wird lernen).
Sie prüfen außerdem sorgfältig die Beiträge der einzelnen Komponenten sowie die Gesamtauswirkungen. Im Anschluss an die Arbeit sammeln sie 40 Video-Textual content-Paare zur Untersuchung, darunter den Davis-Datensatz und andere aus dem Web. In vielerlei Hinsicht sind sie mit der Body-weisen Steady Diffusion und den textgesteuerten SOTA-Videobearbeitungstechniken vergleichbar. Sie verwenden insbesondere den SSIM-Rating zur Messung der Wiedergabetreue und den CLIP zur Bewertung der Textausrichtung und zeitlichen Konsistenz. Sie führen auch Benutzerstudien durch, bei denen ControlVideo mit allen Baselines verglichen wird.
Zahlreiche Ergebnisse zeigen, dass ControlVideo eine mit der Textausrichtung vergleichbare Leistung erbringt und alle diese Basiswerte hinsichtlich Wiedergabetreue und zeitlicher Konsistenz deutlich übertrifft. Ihre empirischen Ergebnisse unterstreichen insbesondere die faszinierende Fähigkeit von ControlVideo, Filme mit unglaublich lebensechter visueller Qualität zu erstellen und das Quellmaterial beizubehalten und sich dabei zuverlässig an schriftliche Anweisungen zu halten. Beispielsweise gelingt ControlVideo dort, wo alle anderen Technologien in der Kosmetik versagen, und bewahrt gleichzeitig die charakteristischen Gesichtszüge einer Individual.
Darüber hinaus ermöglicht ControlVideo einen anpassbaren Kompromiss zwischen Wiedergabetreue und Bearbeitbarkeit des Movies durch die Verwendung verschiedener Steuerungstypen, die unterschiedliche Informationsmengen aus dem Originalvideo integrieren (siehe Abbildung 1). Die HED-Grenze bietet beispielsweise präzise Grenzdetails des Originalvideos und eignet sich für strenge Kontrollen wie die Bearbeitung von Gesichtsvideos. Pose umfasst die Bewegungsdaten des Originalvideos und gibt dem Benutzer so mehr Freiheit, das Motiv und den Hintergrund zu ändern und gleichzeitig die Bewegungsübertragung beizubehalten. Darüber hinaus zeigen sie, wie es möglich ist, mehrere Steuerungen zu mischen, um die Vorteile verschiedener Steuerungsarten zu nutzen.
Besuche die Papier Und Projekt. Vergessen Sie nicht, mitzumachen unser 23k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com.
🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an
Aneesh Tickoo ist Beratungspraktikantin bei MarktechPost. Derzeit absolviert er seinen Bachelor-Abschluss in Datenwissenschaft und künstlicher Intelligenz am Indian Institute of Know-how (IIT) in Bhilai. Die meiste Zeit verbringt er mit der Arbeit an Projekten, die darauf abzielen, die Leistungsfähigkeit des maschinellen Lernens zu nutzen. Sein Forschungsinteresse gilt der Bildverarbeitung und er ist leidenschaftlich daran interessiert, Lösungen dafür zu entwickeln. Er liebt es, mit Menschen in Kontakt zu treten und an interessanten Projekten mitzuarbeiten.