Ainur ist ein innovatives Deep-Learning-Modell für die bedingte multimodale Musikgenerierung. Es wurde entwickelt, um hochwertige Stereo-Musiksamples mit 48 kHz zu erzeugen, die auf einer Vielzahl von Eingaben wie Liedtexten, Textbeschreibungen und anderen Audiodaten basieren. Ainurs hierarchische Diffusionsarchitektur ermöglicht in Kombination mit CLASP-Einbettungen die Produktion kohärenter und ausdrucksstarker Musikkompositionen über ein breites Spektrum an Genres und Stilen hinweg.
Bedingte Generierung: Ainur ermöglicht die Generierung von Musik basierend auf Liedtexten, Textbeschreibungen oder anderem Audio und bietet so einen flexiblen und kreativen Ansatz für die Musikkomposition.
Hochwertige Ausgabe: Das Modell ist in der Lage, 22-Sekunden-Stereo-Musikproben mit 48 kHz zu erzeugen, was eine hohe Wiedergabetreue und Realismus gewährleistet.
Multimodales Lernen: Ainur verwendet CLASP-Einbettungen, bei denen es sich um multimodale Darstellungen von Texten und Audio handelt, um die Ausrichtung von Texttexten an entsprechenden Audiofragmenten zu erleichtern.
Objektive Bewertung: Wir bieten umfassende Bewertungsmetriken, einschließlich Frechet Audio Distance (FAD) und CLASP Cycle Consistency (C3), um die Qualität und Kohärenz der generierten Musik zu bewerten.
Um Ainur auszuführen, stellen Sie sicher, dass die folgenden Abhängigkeiten installiert sind:
Python 3.8+
PyTorch 1.13.1
PyTorch Lightning 2.0.0
Sie können die erforderlichen Python-Pakete installieren, indem Sie Folgendes ausführen:
pip install -r Anforderungen.txt
Klonen Sie dieses Repository:
Git-Klon https://github.com/ainur-music/ainur.gitcd ainur
Installieren Sie die Abhängigkeiten (wie oben erwähnt).
Führen Sie Ainur mit der gewünschten Eingabe aus. Schauen Sie sich die Beispielnotizbücher im examples
an, um Anleitungen zur Verwendung von Ainur für die Musikgenerierung zu erhalten. ( kommt bald )
Ainur leitet die Musikgenerierung und verbessert die Qualität des Gesangs durch Textinformationen und synchronisierte Liedtexte. Hier sind Beispiele für Inputs zum Trainieren und Generieren von Musik mit Ainur:
«Red Hot Chili Peppers, Alternative Rock, 7 of 19»
«[00:45.18] I got your hey oh, now listen what I say oh [...]»
Wir vergleichen die Leistung von Ainur mit anderen hochmodernen Modellen für die Text-zu-Musik-Generierung. Wir haben die Bewertung auf objektive Metriken wie FAD gestützt und verschiedene Einbettungsmodelle als Referenz verwendet: VGGish, YAMNet und Trill.
Modell | Rate [kHz] | Länge [s] | Parameter [M] | Inferenzschritte | Inferenzzeit [s] ↓ | FAD VGGish ↓ | FAD YAMNet ↓ | FAD Triller ↓ |
---|---|---|---|---|---|---|---|---|
Ainur | 48@2 | 22 | 910 | 50 | 14.5 | 8.38 | 20.70 | 0,66 |
Ainur (kein VERSCHLUSS) | 48@2 | 22 | 910 | 50 | 14.7 | 8.40 | 20.86 | 0,64 |
AudioLDM | 16@1 | 22 | 181 | 200 | 2.20 | 15.5 | 784,2 | 0,52 |
AudioLDM 2 | 16@1 | 22 | 1100 | 100 | 20.8 | 8.67 | 23.92 | 0,52 |
MusicGen | 16@1 | 22 | 300 | 1500 | 81,3 | 14.4 | 53.04 | 0,66 |
Jukebox | 16@1 | 1 | 1000 | - | 538 | 20.4 | 178.1 | 1,59 |
MusicLM | 16@1 | 5 | 1890 | 125 | 153 | 15.0 | 61,58 | 0,47 |
Riffusion | 44,1@1 | 5 | 890 | 50 | 6,90 | 5.24 | 15.96 | 0,67 |
Entdecken und hören Sie hier die von Ainur generierte Musik.
Sie können vorab trainierte Ainur- und CLASP-Kontrollpunkte vom Laufwerk herunterladen:
Ainur bester Checkpoint (Modell mit dem geringsten Verlust während des Trainings)
Ainur letzter Kontrollpunkt (Modell mit der höchsten Anzahl an Trainingsschritten)
CLASP-Kontrollpunkt
Dieses Projekt ist unter der MIT-Lizenz lizenziert – Einzelheiten finden Sie in der LIZENZ-Datei.
© 2023 Giuseppe Concialdi