Der Herausgeber von Downcodes erfuhr, dass Forscher der School of Data Science der Musashino-Universität kürzlich einen großen Durchbruch erzielt und einen neuen Algorithmus namens AMT-APC entwickelt haben, der Klaviermusik automatisch genauer erzeugen kann. Diese Technologie basiert auf dem Modell der automatischen Musiktranskription (AMT). Durch geschickte Feinabstimmung verbessert sie die Klangqualität und Ausdruckskraft der erzeugten Klaviermusik erheblich und überwindet die Klangqualitäts- und Leistungsprobleme früherer automatischer Klaviermusikgenerationen Engpässe wie unzureichende Leistung. Die Innovation dieses Algorithmus liegt in seiner einzigartigen zweistufigen Strategie: Zuerst wird das vorab trainierte AMT-Modell verwendet, um verschiedene Klangdetails in der Musik zu erfassen, und dann wird die Feinabstimmung mithilfe eines gepaarten Datensatzes durchgeführt, der das Originalmusikaudio und das Klavier enthält Das Ergebnis ist eine Klavierspielversion, die dem Stil des Originalsongs näher kommt. Darüber hinaus führten die Forscher auch das Konzept des „Stilvektors“ ein, um die Ausdruckskraft der erzeugten Klaviermusik weiter zu verbessern.
Lange Zeit stand die Technologie zur automatischen Erzeugung von Klaviermusik vor dem Problem einer unzureichenden Klangqualität, Wiedergabetreue und Ausdruckskraft. Bestehende Modelle können oft nur einfache Melodien und Rhythmen erzeugen und die reichen Details und Emotionen der Originallieder nicht einfangen.
Der AMT-APC-Algorithmus verfolgt einen anderen Ansatz. Er verwendet zunächst ein vorab trainiertes AMT-Modell, um verschiedene Klänge in der Musik genau zu „erfassen“ und wendet es dann durch Feinabstimmung auf die Aufgabe des automatischen Klavierspiels an.
Der Kern des AMT-APC-Algorithmus liegt in der zweistufigen Strategie:
Schritt eins: Vortraining. Als Basis wählten die Forscher ein leistungsstarkes AMT-Modell namens hFT-Transformer und trainierten es mithilfe des MAESTRO-Datensatzes weiter, sodass es in der Lage ist, längere Musikclips zu verarbeiten.
Schritt 2: Feinabstimmung. Die Forscher erstellten einen gepaarten Datensatz mit den Originalmusik-Audiodateien und den MIDI-Dateien für Klavierdarbietungen und nutzten diesen Datensatz zur Feinabstimmung des AMT-Modells, sodass eine Version für Klavierdarbietungen generiert werden konnte, die dem Stil der Originalmusik besser entsprach .
Um die erzeugte Klaviermusik ausdrucksvoller zu machen, führten die Forscher außerdem ein Konzept namens „Stilvektor“ ein. Stilvektoren sind eine Reihe von Merkmalen, die aus jeder Klavierspielversion extrahiert werden, einschließlich der Verteilung der Noteneinsatzgeschwindigkeit, der Geschwindigkeitsverteilung und der Tonhöhenverteilung. Durch die Eingabe von Stilvektoren in das Modell zusammen mit dem Originalmusikaudio ist der AMT-APC-Algorithmus in der Lage, verschiedene Spielstile zu lernen und diese in der generierten Klaviermusik widerzuspiegeln.
Experimentelle Ergebnisse zeigen, dass die vom AMT-APC-Algorithmus erzeugte Klaviermusik im Vergleich zu bestehenden automatischen Klavierspielmodellen erhebliche Verbesserungen in der Klangqualität, Wiedergabetreue und Ausdruckskraft aufweist. Durch die Verwendung einer Metrik namens Qmax zur Bewertung der Ähnlichkeit zwischen dem Originalsong und dem generierten Audio erreichte das AMT-APC-Modell den niedrigsten Qmax-Wert, was bedeutet, dass es die Eigenschaften des Originalsongs besser wiederherstellen kann.
Diese Studie zeigt, dass AMT und APC eng miteinander verbundene Aufgaben sind und die Verwendung bestehender AMT-Forschungsergebnisse uns bei der Entwicklung fortschrittlicherer APC-Modelle helfen kann. In Zukunft planen die Forscher, AMT-Modelle weiter zu erforschen, die besser für APC-Anwendungen geeignet sind, um ein realistischeres und ausdrucksstärkeres automatisches Klavierspiel zu erreichen.
Projektadresse: https://misya11p.github.io/amt-apc/
Papieradresse: https://arxiv.org/pdf/2409.14086
Der Erfolg des AMT-APC-Algorithmus hat neue Möglichkeiten auf dem Gebiet der automatischen Musikgenerierung eröffnet und deutet auch darauf hin, dass in Zukunft realistischere und ausdrucksstärkere Technologien zur automatischen Musikgenerierung kommen werden. Wir freuen uns darauf, dass zukünftige Forscher auf dieser Grundlage weiter forschen und uns weitere Überraschungen bringen!