Lernen Sie MeLoDy kennen: Ein effizientes Text-zu-Audio-Diffusionsmodell für die Musiksynthese

0
25


Musik ist eine Kunst, die aus Harmonie, Melodie und Rhythmus besteht und jeden Aspekt des menschlichen Lebens durchdringt. Mit dem Aufblühen tiefer generativer Modelle hat die Musikgenerierung in den letzten Jahren viel Aufmerksamkeit auf sich gezogen. Als herausragende Klasse generativer Modelle zeigten Sprachmodelle (LMs) außergewöhnliche Modellierungsfähigkeiten bei der Modellierung komplexer Beziehungen über langfristige Kontexte hinweg. Vor diesem Hintergrund haben AudioLM und viele Folgearbeiten LMs erfolgreich auf die Audiosynthese angewendet. Parallel zu den LM-basierten Ansätzen haben auch Diffusions-Probabilistik-Modelle (DPMs) als eine weitere konkurrierende Klasse generativer Modelle außergewöhnliche Fähigkeiten bei der Synthese von Sprache, Klängen und Musik gezeigt.

Die Generierung von Musik aus freiem Textual content bleibt jedoch eine Herausforderung, da die zulässigen Musikbeschreibungen unterschiedlich sein können und sich auf Genres, Instrumente, Tempo, Szenarien oder sogar einige subjektive Gefühle beziehen.

Herkömmliche Modelle zur Textual content-zu-Musik-Generierung konzentrieren sich häufig auf bestimmte Eigenschaften wie z Audio-Fortsetzung oder schnelle Probenahmewährend einige Modelle Prioritäten setzen Robuste Checksdie gelegentlich von Experten auf diesem Gebiet durchgeführt wird, wie z Musikproduzenten. Darüber hinaus sind die meisten an umfangreichen Musikdatensätzen geschult und haben hochmoderne generative Darbietungen mit hoher Wiedergabetreue und Einhaltung verschiedener Aspekte von Textaufforderungen demonstriert.

Der Erfolg dieser Methoden wie MusicLM oder Noise2Music ist jedoch mit hohen Rechenkosten verbunden, die ihre Praktikabilität erheblich beeinträchtigen würden. Im Vergleich dazu ermöglichten andere auf DPMs basierende Ansätze effiziente Samplings hochwertiger Musik. Dennoch waren die gezeigten Fälle vergleichsweise klein und zeigten eine begrenzte Dynamik innerhalb der Stichprobe. Beim Streben nach einem praktikablen Werkzeug zur Musikerstellung ist eine hohe Effizienz des generativen Modells von wesentlicher Bedeutung, da es die interaktive Erstellung unter Berücksichtigung menschlichen Feedbacks erleichtert, wie in einer früheren Studie.

Während sowohl LMs als auch DPMs vielversprechende Ergebnisse zeigten, ist die relevante Frage nicht, ob einem der beiden Ansätze der Vorzug gegeben werden sollte, sondern ob es möglich ist, die Vorteile beider Ansätze gleichzeitig zu nutzen.

Aus der genannten Motivation heraus wurde ein Ansatz namens MeLoDy entwickelt. Der Überblick über die Strategie ist in der folgenden Abbildung dargestellt.

Nach der Analyse des Erfolgs von MusicLM nutzen die Autoren die höchste LM-Ebene in MusicLM, die sogenannte semantische LM, um die semantische Struktur von Musik zu modellieren und die Gesamtanordnung von Melodie, Rhythmus, Dynamik, Klangfarbe und Tempo zu bestimmen. Basierend auf diesem semantischen LM nutzen sie die nicht-autoregressive Natur von DPMs, um die Akustik mithilfe einer erfolgreichen Sampling-Beschleunigungstechnik effizient und effektiv zu modellieren.

Darüber hinaus schlagen die Autoren das sogenannte Twin-Path-Diffusion (DPD)-Modell vor, anstatt den klassischen Diffusionsprozess zu übernehmen. Tatsächlich würde die Arbeit an den Rohdaten den Rechenaufwand exponentiell erhöhen. Die vorgeschlagene Lösung besteht darin, die Rohdaten auf eine niedrigdimensionale latente Darstellung zu reduzieren. Eine Verringerung der Dimensionalität der Daten beeinträchtigt deren Auswirkungen auf den Betrieb und verkürzt somit die Modelllaufzeit. Anschließend können die Rohdaten aus der latenten Darstellung durch einen vorab trainierten Autoencoder rekonstruiert werden.

Einige vom Modell erzeugte Ausgabebeispiele sind unter folgendem Hyperlink verfügbar: https://efficient-melody.github.io/. Der Code ist noch nicht verfügbar, sodass ein Ausprobieren derzeit weder on-line noch lokal möglich ist.

Dies struggle die Zusammenfassung von MeLoDy, einem effizienten LM-gesteuerten Diffusionsmodell, das Musik-Audios in modernster Qualität erzeugt. Wenn Sie interessiert sind, können Sie unter den folgenden Hyperlinks mehr über diese Technik erfahren.


Besuche die Papier. Vergessen Sie nicht, mitzumachen unser 25k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com


🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an


Daniele Lorenzi erhielt seinen M.Sc. in IKT für Web- und Multimediatechnik im Jahr 2021 an der Universität Padua, Italien. Er ist ein Ph.D. Kandidat am Institut für Informationstechnologie (ITEC) der Alpen-Adria-Universität (AAU) Klagenfurt. Derzeit arbeitet er im Christian Doppler Laboratory ATHENA und seine Forschungsinteressen umfassen adaptives Videostreaming, immersive Medien, maschinelles Lernen und QoS/QoE-Bewertung.




Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here