Der Künstlerfreund in Ihrer Tasche: SnapFusion ist ein KI-Ansatz, der die Leistungsfähigkeit von Diffusionsmodellen auf mobile Geräte bringt

0
28


Diffusionsmodelle. Dies ist ein Begriff, von dem Sie oft gehört haben, wenn Sie die Fortschritte im KI-Bereich verfolgt haben. Sie waren der Schlüssel, der die Revolution generativer KI-Methoden ermöglichte. Wir verfügen jetzt über Modelle, die mithilfe von Textaufforderungen innerhalb von Sekunden fotorealistische Bilder erzeugen können. Sie haben die Inhaltserstellung, Bildbearbeitung, Superauflösung, Videosynthese und 3D-Asset-Generierung revolutioniert.

Allerdings ist diese beeindruckende Leistung nicht billig. Diffusionsmodelle sind hinsichtlich der Rechenanforderungen äußerst anspruchsvoll. Das bedeutet, dass Sie wirklich Excessive-Finish-GPUs benötigen, um diese voll ausnutzen zu können. Ja, gibt es auch Versuche um sie auf Ihren lokalen Computern laufen zu lassen; Aber selbst dann brauchen Sie ein Excessive-Finish-Gerät. Andererseits kann die Nutzung eines Cloud-Anbieters eine different Lösung sein, allerdings gefährden Sie in diesem Fall möglicherweise Ihre Privatsphäre.

Dann gibt es noch den Aspekt des Unterwegs, über den wir nachdenken müssen. Die meisten Menschen verbringen mehr Zeit am Telefon als am Laptop. Wenn Sie Diffusionsmodelle auf Ihrem Mobilgerät verwenden möchten, dann viel Glück damit, denn es wird zu anspruchsvoll für die begrenzte Hardwareleistung des Geräts selbst sein.

Diffusionsmodelle sind das nächste große Ding, aber wir müssen uns mit ihrer Komplexität auseinandersetzen, bevor wir sie in praktischen Anwendungen anwenden. Es gab mehrere Versuche, die sich darauf konzentrierten, die Inferenz auf mobilen Geräten zu beschleunigen, aber sie haben weder ein nahtloses Benutzererlebnis noch eine quantitativ bewertete Generierungsqualität erreicht. Nun, so struggle es bis jetzt, denn wir haben einen neuen Spieler auf dem Feld, und er hat seinen Namen SnapFusion.

SnapFusion ist das erste Textual content-zu-Bild-Diffusionsmodell, das Bilder auf Mobilgeräten in weniger als 2 Sekunden generiert. Es optimiert die UNet-Architektur und reduziert die Anzahl der Entrauschungsschritte, um die Inferenzgeschwindigkeit zu verbessern. Darüber hinaus nutzt es ein sich weiterentwickelndes Trainings-Framework, führt Datendestillations-Pipelines ein und verbessert das Lernziel während der schrittweisen Destillation.

Überblick über SnapFusion. Quelle: https://arxiv.org/pdf/2306.00980.pdf

Bevor Änderungen an der Struktur vorgenommen werden, müssen die Autoren von SnapFusion untersuchte zunächst die Architekturredundanz von SD-v1.5, um effiziente neuronale Netze zu erhalten. Allerdings struggle die Anwendung herkömmlicher Pruning- oder Architektursuchtechniken auf SD aufgrund der hohen Schulungskosten eine Herausforderung. Jegliche Änderungen an der Architektur können zu Leistungseinbußen führen und eine umfangreiche Feinabstimmung mit erheblichen Rechenressourcen erfordern. Dieser Weg struggle additionally versperrt und sie mussten different Lösungen entwickeln, die die Leistung des vorab trainierten UNet-Modells beibehalten und gleichzeitig seine Wirksamkeit schrittweise verbessern können.

Um die Inferenzgeschwindigkeit zu erhöhen, SnapFusion konzentriert sich auf die Optimierung der UNet-Architektur, die einen Engpass im bedingten Diffusionsmodell darstellt. Bestehende Arbeiten konzentrieren sich hauptsächlich auf Optimierungen nach dem Coaching, aber SnapFusion identifiziert Architekturredundanzen und schlägt ein sich weiterentwickelndes Trainingsframework vor, das das ursprüngliche Steady Diffusion-Modell übertrifft und gleichzeitig die Geschwindigkeit deutlich verbessert. Außerdem wird eine Datendestillationspipeline eingeführt, um den Bilddecoder zu komprimieren und zu beschleunigen.

SnapFusion beinhaltet eine robuste Trainingsphase, in der stochastische Vorwärtsausbreitung angewendet wird, um jeden Cross-Consideration- und ResNet-Block mit einer bestimmten Wahrscheinlichkeit auszuführen. Diese robuste Trainingserweiterung stellt sicher, dass das Netzwerk gegenüber Architekturpermutationen tolerant ist, was eine genaue Bewertung jedes Blocks und eine stabile Architekturentwicklung ermöglicht.

Der effiziente Bilddecoder wird durch eine Destillationspipeline erreicht, die synthetische Daten verwendet, um den durch Kanalreduzierung erhaltenen Decoder zu trainieren. Dieser komprimierte Decoder hat deutlich weniger Parameter und ist schneller als der von SD-v1.5. Der Destillationsprozess umfasst die Generierung zweier Bilder, eines vom effizienten Decoder und das andere von SD-v1.5, wobei Texteingabeaufforderungen verwendet werden, um die latente Darstellung vom UNet von SD-v1.5 zu erhalten.

Der vorgeschlagene Stufendestillationsansatz beinhaltet ein Vanille-Destillationsverlustziel, das darauf abzielt, die Diskrepanz zwischen der Vorhersage des Schüler-UNet und der verrauschten latenten Darstellung des Lehrer-UNet zu minimieren. Darüber hinaus wird ein CFG-bewusstes Destillationsverlustziel eingeführt, um den CLIP-Rating zu verbessern. CFG-gesteuerte Vorhersagen werden sowohl im Lehrer- als auch im Schülermodell verwendet, wobei die CFG-Skala zufällig ausgewählt wird, um während des Trainings einen Kompromiss zwischen FID- und CLIP-Ergebnissen zu ermöglichen.

wt zpQeTx6 tBg8W 7BkoKu0Jq8s7xk6f0Y7jVkmImEDGAfeB9otwPwvREsZhoLMZYO5 74cj uTfyGZCO09pFi25eEPuS3zHi8CUF6vUBeh ekBumy4 aNf efIMms4FPCjpe
Von SnapFusion generierte Beispielbilder. Quelle: https://arxiv.org/pdf/2306.00980.pdf

Dank der verbesserten Stufendestillation und Netzwerkarchitekturentwicklung SnapFusion kann in weniger als 2 Sekunden 512 × 512 Bilder aus Textaufforderungen auf Mobilgeräten generieren. Die erzeugten Bilder weisen eine ähnliche Qualität auf wie das hochmoderne Steady Diffusion-Modell.


Besuche die Papier Und Projektseite. Vergessen Sie nicht, mitzumachen unser 25k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com


🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an


Ekrem Çetinkaya erhielt seinen B.Sc. im Jahr 2018 und M.Sc. im Jahr 2019 von der Ozyegin-Universität, Istanbul, Türkiye. Er schrieb seinen M.Sc. Diplomarbeit über Bildrauschen mithilfe tiefer Faltungsnetzwerke. Er erhielt seinen Ph.D. Abschluss im Jahr 2023 an der Universität Klagenfurt, Österreich, mit seiner Dissertation mit dem Titel „Video Coding Enhancements for HTTP Adaptive Streaming Utilizing Machine Studying“. Seine Forschungsinteressen umfassen Deep Studying, Laptop Imaginative and prescient, Videokodierung und Multimedia-Netzwerke.




Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here