Erkundung der Fortschritte bei der Audioquellentrennung mit einem bandgeteilten rekurrenten neuronalen Netzwerk
Remixe gibt es schon seit quick 50 Jahren, mit Ursprung in der Mitte der 1970er Jahre und gewinnt mit verschiedenen Musikbewegungen und technologischen Fortschritten langsam an Popularität. Musik Remixe kann im weitesten Sinne als das Erstellen eines neuen Liedes oder einer neuen Komposition aus den Ableitungen früherer Kreationen definiert werden.
Erst in den 2010er Jahren erreichten Remixe mit der Popularisierung elektronischer Musik und neuen digitalen Instruments endlich die volle öffentliche Akzeptanz, die es einfacher denn je machte, alte Songs und Audioclips auf quick jede erdenkliche Weise zusammenzufügen und zu bearbeiten. Es wurde üblich, dass Künstler ihre Werke tatsächlich anboten Stiele der Öffentlichkeit zugänglich zu machen, um die Erstellung von Remixen ihrer Songs zu erleichtern. Stems sind die einzelnen Spuren wie Gesang oder Schlagzeug, die einen vollständig gemischten Tune ergeben. Es gab jedoch immer noch eine Grenze für das Remixen von Tracks, wenn die isolierten Stems nicht zugänglich waren. Daher entstand das Bedürfnis, einen Observe in die einzelnen Stems des Songs „entmischen“ zu können.
Während es sicherlich noch viele andere Faktoren gibt, die außerhalb des Rahmens dieses Stücks liegen, führte diese Notwendigkeit, Stems zu isolieren, gepaart mit der Allgegenwärtigkeit von Remixen, zu einem Anstieg der Forschung und Entwicklung von Musik-Demixing, additionally dem Demixen von Musik Trennung von AudioquellenTechnologien.
Traditionell wurden verschiedene Filter- und Trimmmethoden verwendet, um bestimmte Instrumente herauszuschneiden oder hervorzuheben. Aber mit der Entwicklung von maschinelles Lernen (ML) in den letzten Jahren, insbesondere die Teilmenge, die neuronale Netze nutzt (auch bekannt als tiefes Lernen) hat sich die Möglichkeit, Instrumente aus einer vollständig gemischten Spur zu trennen, erheblich verbessert.
In letzter Zeit hat sich die Begeisterung für Musik-KI vor allem auf die Musikgenerierung konzentriert, wobei in den letzten Jahren so viele unglaubliche neue Modelle veröffentlicht wurden (Jukebox, RAVE, Riffusion, MusicLM, MusicGen, Musika, Moûsai, usw). Doch seit 2018 findet eine weitere stille Revolution in der Musikwelt statt: Die Musik-Entmischungs-KI-Revolution.
Das obige Diagramm zeigt die Leistung verschiedener hochmoderner (SOTA) Modelle seit 2018. Die Bewertungsmetrik SDR steht für Supply-to-Distortion Ratio und misst effektiv die Qualität des vom Audiosignal getrennten Audiosignals Grundwahrheit. Zu Demonstrationszwecken ist das Verständnis der absoluten Metrik weniger wichtig als ihre vergleichende Verwendung. Es ist ersichtlich, dass sich die Leistung von Musik-Demixing-Modellen in weniger als 5 Jahren quick um das Dreifache verbessert hat. Bis dahin conflict die Aufgabe größtenteils nicht machbar. Das ist einfach bemerkenswert.
Ein Großteil dieser Forschung ist noch experimentell und hat noch keinen Eingang in die Instruments der Hersteller gefunden. Einige Algorithmen, wie z Deezer Spleeterwurden in leistungsstarke Instruments integriert, die von Herstellern auf der ganzen Welt verwendet werden:
Aber selbst seit der Integration von Spleeter (durchschnittlicher SDR: 5,91) in diese Produkte vor einigen Jahren hat die Forschung die Leistung der Audioquellentrennung um über 60 % verbessert.
Als Musiker, der auch in der Welt der Audio-KI-Technologie lebt, waren diese schnellen Verbesserungen unglaublich aufregend. Deshalb beschloss ich, mich an der Entwicklung zu beteiligen, indem ich mich beteiligte AIcrowds Music Demixing Challenge 2023. Diese Herausforderung, unterstützt von Sony, MoisesUnd Mitsubishi Electricwurde gegründet, um die Forschung und Entwicklung im Bereich der Audioquellen-Trennungstechnologien zu fördern. Durch meine Teilnahme habe ich viel über diese hochmodernen Musik-Demixing-Algorithmen sowie die Mängel gelernt, die die Technologie immer noch aufweist.
Ich habe mich für den Bau eines entschieden Band-Split Recurrent Neural Network (BSRNN) für den Wettbewerb basierend auf a Papier veröffentlicht im Jahr 2022 von Luo & Yu. Dieses Framework hat mich anfangs gegenüber anderen angezogen, weil es dem Artikel zufolge alle anderen Modelle übertrifft, wenn derselbe Trainingsdatensatz verwendet wird. Dies liegt wahrscheinlich daran, dass es im Gegensatz zu anderen Modellen eine Möglichkeit bietet, das Modell durch menschliches Wissen über die Eigenschaften jedes Devices zu beeinflussen. Wir können es so gestalten, dass Frequenzbändern mehr Bedeutung beigemessen wird, die für ein Instrument relevanter sind als für ein anderes.
Bevor wir uns mit den Einzelheiten dieses komplexen Deep-Studying-Frameworks befassen, müssen wir besprechen, wie Audiodaten verarbeitet werden, damit Laptop damit arbeiten können.
Physikalisch gesehen besteht Schall aus zeitlichen Druckschwankungen von Luftpartikeln. Um dies in die Sprache eines Computer systems zu übersetzen, können wir diese Schwingungen mit Mikrofonen erfassen und sie einem digitalen Sign zuordnen, das zwischen -1 und 1 oszilliert. Dies kann als „rohe“ Audiowellenform betrachtet werden und ist im Allgemeinen die Artwork und Weise, wie Laptop unkomprimiertes Audio speichern Daten. Das ist Zeitbereich Daten, da es die Amplitude über die Zeit misst. Ein Beispiel hierfür sehen wir unten in einem 7-Sekunden-Beispiel einer Gesangsaufnahme.
Obwohl diese Darstellung im Zeitbereich analog dazu ist, wie wir Schall tatsächlich hören, ist es schwierig, aus einer visuellen Untersuchung irgendwelche Informationen zu gewinnen. Der Ton kann auch auf andere Weise im angezeigt werden Frequenzbereich. Dazu wird die Wellenform mithilfe von in die Größe ihrer Frequenzkomponenten transformiert Fourier-Transformation. Dies zeigt im Grunde das Maß dafür, wie laut der Ton bei jeder Frequenz oder musikalisch ausgedrückt bei jeder Tonhöhe ist. Wir können den gleichen Gesangsclip von oben sehen, der in den Frequenzbereich unten umgewandelt wurde. Hier können wir anhand einer einfachen visuellen Inspektion etwas mehr Informationen gewinnen, z. B. dass ein Großteil der Schallenergie für diese Gesangsspur zwischen 250 Hz und 2 kHz liegt.
Diese Informationen sind in vielen Zusammenhängen sehr nützlich. Allerdings haben wir bei dieser Transformation nun alle zeitlichen Informationen aus den Daten verloren.
Zum Glück gibt es eine Möglichkeit, Informationen sowohl aus dem Frequenzbereich als auch aus dem Zeitbereich zu kombinieren. Dies geschieht in Kind von a Spektrogramm. Ein Spektrogramm fungiert wie eine Heatmap des Schalls im Zeitverlauf, mit der Zeit auf der x-Achse und der Frequenz auf der y-Achse. Die gleiche Gesangsspur, mit der wir gearbeitet haben, ist unten in Kind eines Spektrogramms dargestellt. Wir können jetzt klare Melodiemuster erkennen, wenn wir die gelben Streifen betrachten, die sich horizontal über das Spektrogramm auf und ab bewegen.
Laptop können mit Daten in all diesen Formaten arbeiten, aber oft ist das Spektrogramm die bevorzugte Methode, da es eine gute Stability zwischen der Komprimierung der Daten ohne zu großen Informationsverlust bietet. Darüber hinaus ähnelt eine Spektrogrammdarstellung Bilddaten, mit denen Laptop sehr intestine arbeiten können. Nichts ist jedoch kostenlos, daher bringt diese Komprimierung und Übersetzung von Audio in Spektrogramm einige Nachteile mit sich, wie z. B. den Verlust von Auflösung und Phaseninformationen. Aber für unsere Musikentmischungszwecke überwiegen die Vorteile von Spektrogrammdaten die Kosten.
Nachdem wir nun die Grundlagen besprochen haben, wie Ton in ein Format umgewandelt wird, mit dem unser Modell arbeiten kann, wollen wir uns mit der Struktur und ihrer Funktionsweise befassen.
Das BSRNN-Modell ist in drei separate Module mit jeweils unterschiedlichen Funktionen unterteilt.
- Band-Cut up-Modul
- Modul zur Band- und Sequenztrennungsmodellierung
- Maskenschätzungsmodul
Da es sich bei BSRNN um ein komplexes Framework handelt, werden wir jedes Modul einzeln im Element durchgehen, um die Funktionalität auf verständliche Weise zu beschreiben.