Vor einem Jahr conflict die Erzeugung realistischer Bilder mit KI ein Traum. Wir waren beeindruckt, als wir generierte Gesichter sahen, die realen ähnelten, obwohl die meisten Ausgaben drei Augen, zwei Nasen usw. hatten. Mit der Veröffentlichung von Diffusionsmodellen änderten sich die Dinge jedoch ziemlich schnell. Heutzutage ist es schwierig, ein KI-generiertes Bild von einem echten zu unterscheiden.
Die Fähigkeit, qualitativ hochwertige Bilder zu erzeugen, ist ein Teil der Gleichung. Wenn wir sie richtig nutzen wollen, spielt ihre effiziente Komprimierung eine wesentliche Rolle bei Aufgaben wie der Inhaltserstellung, Datenspeicherung, Übertragung und Bandbreitenoptimierung. Allerdings stützte sich die Bildkomprimierung überwiegend auf traditionelle Methoden wie Transformationskodierung und Quantisierungstechniken, wobei generative Modelle nur begrenzt erforscht wurden.
Trotz ihres Erfolgs bei der Bilderzeugung haben sich Diffusionsmodelle und punktebasierte generative Modelle noch nicht als führende Ansätze für die Bildkomprimierung herausgestellt und hinken GAN-basierten Methoden hinterher. Sie schneiden bei hochauflösenden Bildern oft schlechter oder auf Augenhöhe mit GAN-basierten Ansätzen wie HiFiC ab. Sogar Versuche, Textual content-zu-Bild-Modelle für die Bildkomprimierung umzufunktionieren, haben zu unbefriedigenden Ergebnissen geführt und Rekonstruktionen erzeugt, die von der ursprünglichen Eingabe abweichen oder unerwünschte Artefakte enthalten.
Die Lücke zwischen der Leistung punktebasierter generativer Modelle bei Bilderzeugungsaufgaben und ihrem begrenzten Erfolg bei der Bildkomprimierung wirft interessante Fragen auf und motiviert zu weiteren Untersuchungen. Es ist überraschend, dass Modelle, die qualitativ hochwertige Bilder erzeugen können, GANs bei der spezifischen Aufgabe der Bildkomprimierung nicht übertreffen konnten. Diese Diskrepanz deutet darauf hin, dass es bei der Anwendung punktebasierter generativer Modelle auf Komprimierungsaufgaben möglicherweise besondere Herausforderungen und Überlegungen gibt, die spezielle Ansätze erfordern, um ihr volles Potenzial auszuschöpfen.
Wir wissen additionally, dass es ein Potenzial für die Verwendung punktebasierter generativer Modelle bei der Bildkomprimierung gibt. Die Frage ist: Wie geht das? Lassen Sie uns auf die Antwort eingehen.
Google-Forscher haben eine Methode vorgeschlagen, die einen Normal-Autoencoder, der für den mittleren quadratischen Fehler (MSE) optimiert ist, mit einem Diffusionsprozess kombiniert, um vom Autoencoder verworfene feine Particulars wiederherzustellen und hinzuzufügen. Die Bitrate zum Kodieren eines Bildes wird ausschließlich vom Autoencoder bestimmt, da für den Diffusionsprozess keine zusätzlichen Bits erforderlich sind. Durch die Feinabstimmung von Diffusionsmodellen speziell für die Bildkomprimierung wird gezeigt, dass sie mehrere neuere generative Ansätze hinsichtlich der Bildqualität übertreffen können.
Die Methode untersucht zwei eng verwandte Ansätze: Diffusionsmodelle, die eine beeindruckende Leistung aufweisen, aber eine große Anzahl von Probenahmeschritten erfordern, und gleichgerichtete Strömungen, die eine bessere Leistung erbringen, wenn weniger Probenahmeschritte zulässig sind.
Der zweistufige Ansatz besteht darin, zunächst das Eingabebild mit dem MSE-optimierten Autoencoder zu kodieren und dann entweder den Diffusionsprozess oder gleichgerichtete Flüsse anzuwenden, um den Realismus der Rekonstruktion zu verbessern. Das Diffusionsmodell verwendet einen Rauschplan, der im Vergleich zu Textual content-zu-Bild-Modellen in die entgegengesetzte Richtung verschoben ist und dem Element Vorrang vor der globalen Struktur einräumt. Andererseits nutzt das gleichgerichtete Flussmodell die vom Autoencoder bereitgestellte Paarung, um die Ausgaben des Autoencoders direkt unkomprimierten Bildern zuzuordnen.
Darüber hinaus enthüllte die Studie spezifische Particulars, die für zukünftige Forschungen in diesem Bereich nützlich sein können. Beispielsweise wird gezeigt, dass der Rauschplan und die Menge des während der Bilderzeugung injizierten Rauschens einen erheblichen Einfluss auf die Ergebnisse haben. Während Textual content-zu-Bild-Modelle beim Coaching mit hochauflösenden Bildern von einem erhöhten Rauschpegel profitieren, zeigt sich interessanterweise, dass die Reduzierung des Gesamtrauschens des Diffusionsprozesses für die Komprimierung von Vorteil ist. Durch diese Anpassung kann sich das Modell stärker auf feine Particulars konzentrieren, da die groben Particulars durch die Autoencoder-Rekonstruktion bereits ausreichend erfasst werden.
Besuche die Papier. Vergessen Sie nicht, mitzumachen unser 24k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com
🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an
Ekrem Çetinkaya erhielt seinen B.Sc. im Jahr 2018 und M.Sc. im Jahr 2019 von der Ozyegin-Universität, Istanbul, Türkiye. Er schrieb seinen M.Sc. Diplomarbeit über Bildrauschen mithilfe tiefer Faltungsnetzwerke. Er erhielt seinen Ph.D. Abschluss im Jahr 2023 an der Universität Klagenfurt, Österreich, mit seiner Dissertation mit dem Titel „Video Coding Enhancements for HTTP Adaptive Streaming Utilizing Machine Studying“. Seine Forschungsinteressen umfassen Deep Studying, Pc Imaginative and prescient, Videokodierung und Multimedia-Netzwerke.