Vom Ton zum Bild: Lernen Sie AudioToken für die Audio-zu-Bild-Synthese kennen

0
28


Neuronale generative Modelle haben die Artwork und Weise, wie wir digitale Inhalte konsumieren, verändert und verschiedene Aspekte revolutioniert. Sie sind in der Lage, qualitativ hochwertige Bilder zu erzeugen, die Kohärenz in langen Textabschnitten sicherzustellen und sogar Sprache und Audio zu produzieren. Unter den verschiedenen Ansätzen haben diffusionsbasierte generative Modelle an Bedeutung gewonnen und bei verschiedenen Aufgaben vielversprechende Ergebnisse gezeigt.

Während des Diffusionsprozesses lernt das Modell, eine vordefinierte Rauschverteilung auf die Zieldatenverteilung abzubilden. Bei jedem Schritt sagt das Modell das Rauschen voraus und generiert das Sign aus der Zielverteilung. Diffusionsmodelle können mit verschiedenen Formen der Datendarstellung arbeiten, beispielsweise mit Roheingaben und latenten Darstellungen.

Für Textual content-zu-Bild-Syntheseaufgaben wurden hochmoderne Modelle wie Secure Diffusion, DALLE und Midjourney entwickelt. Obwohl das Interesse an der X-zu-Y-Generierung in den letzten Jahren zugenommen hat, wurden Audio-zu-Bild-Modelle noch nicht eingehend erforscht.

Der Grund für die Verwendung von Audiosignalen anstelle von Textansagen liegt in der Verbindung zwischen Bildern und Audio im Kontext von Movies. Im Gegensatz dazu können textbasierte generative Modelle zwar bemerkenswerte Bilder erzeugen, Textbeschreibungen sind jedoch nicht inhärent mit dem Bild verbunden, was bedeutet, dass Textbeschreibungen normalerweise manuell hinzugefügt werden. Audiosignale haben darüber hinaus die Fähigkeit, komplexe Szenen und Objekte darzustellen, beispielsweise verschiedene Variationen desselben Devices (z. B. klassische Gitarre, Akustikgitarre, E-Gitarre usw.) oder verschiedene Perspektiven desselben Objekts (z. B. klassische Gitarre). in einem Studio aufgenommen im Vergleich zu einer Stay-Present). Die manuelle Annotation solch detaillierter Informationen für bestimmte Objekte ist arbeitsintensiv, was die Skalierbarkeit erschwert.

Frühere Studien haben mehrere Methoden zur Generierung von Audio aus Bildeingaben vorgeschlagen, wobei in erster Linie ein Generative Adversarial Community (GAN) zur Generierung von Bildern auf der Grundlage von Audioaufzeichnungen verwendet wird. Es gibt jedoch bemerkenswerte Unterschiede zwischen ihrer Arbeit und der vorgeschlagenen Methode. Einige Methoden konzentrierten sich ausschließlich auf die Generierung von MNIST-Ziffern und weiteten ihren Ansatz nicht auf allgemeine Audiotöne aus. Andere generierten zwar Bilder aus allgemeinem Audio, führten jedoch zu Bildern von geringer Qualität.

Um die Einschränkungen dieser Studien zu überwinden, wurde ein DL-Modell für die Audio-zu-Bild-Erzeugung vorgeschlagen. Die Übersicht ist in der folgenden Abbildung dargestellt.

Dieser Ansatz beinhaltet die Nutzung eines vorab trainierten Textual content-zu-Bild-Generierungsmodells und eines vorab trainierten Audiodarstellungsmodells, um eine Anpassungsschichtzuordnung zwischen ihren Ausgaben und Eingaben zu erlernen. Basierend auf neueren Arbeiten zu Textinversionen wird ein spezielles Audio-Token eingeführt, um die Audiodarstellungen in einen Einbettungsvektor abzubilden. Dieser Vektor wird dann als kontinuierliche Darstellung an das Netzwerk weitergeleitet und spiegelt die Einbettung eines neuen Wortes wider.

Der Audio Embedder nutzt ein vorab trainiertes Audioklassifizierungsnetzwerk, um die Audiodarstellung zu erfassen. Typischerweise wird die letzte Schicht des Unterscheidungsnetzwerks zu Klassifizierungszwecken eingesetzt, dabei werden jedoch häufig wichtige Audiodetails außer Acht gelassen, die nichts mit der Unterscheidungsaufgabe zu tun haben. Um dieses Downside zu lösen, kombiniert der Ansatz frühere Schichten mit der letzten verborgenen Schicht, was zu einer zeitlichen Einbettung des Audiosignals führt.

Beispielergebnisse des vorgestellten Modells werden unten aufgeführt.

bQNWvcKwvzT0HcyGJt91B17RG2gy49elnRpCw9MVGqV0 C Y24Fb7jO2yq8 Yvqod9yNrUM1MwdP4bV2Bl5HJJaPFv

Dies warfare die Zusammenfassung von AudioToken, einem neuartigen Audio-to-Picture (A2I)-Synthesemodell. Wenn Sie interessiert sind, können Sie unter den folgenden Hyperlinks mehr über diese Technik erfahren.


Besuche die Papier. Vergessen Sie nicht, mitzumachen unser 24k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com


🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an


Daniele Lorenzi erhielt seinen M.Sc. in IKT für Web- und Multimediatechnik im Jahr 2021 an der Universität Padua, Italien. Er ist ein Ph.D. Kandidat am Institut für Informationstechnologie (ITEC) der Alpen-Adria-Universität (AAU) Klagenfurt. Derzeit arbeitet er im Christian Doppler Laboratory ATHENA und seine Forschungsinteressen umfassen adaptives Videostreaming, immersive Medien, maschinelles Lernen und QoS/QoE-Bewertung.




Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here