Ainur est un modèle d'apprentissage profond innovant pour la génération de musique multimodale conditionnelle. Il est conçu pour générer des échantillons de musique stéréo de haute qualité à 48 kHz conditionnés par une variété d'entrées, telles que des paroles, des descripteurs de texte et d'autres éléments audio. L'architecture de diffusion hiérarchique d'Ainur, combinée aux intégrations CLASP, lui permet de produire des compositions musicales cohérentes et expressives dans un large éventail de genres et de styles.
Génération conditionnelle : Ainur permet la génération de musique conditionnée par des paroles, des descripteurs de texte ou d'autres éléments audio, offrant une approche flexible et créative de la composition musicale.
Sortie de haute qualité : le modèle est capable de produire des échantillons de musique stéréo de 22 secondes à 48 kHz, garantissant une haute fidélité et un réalisme élevé.
Apprentissage multimodal : Ainur utilise des intégrations CLASP, qui sont des représentations multimodales des paroles et de l'audio, pour faciliter l'alignement des paroles textuelles avec les fragments audio correspondants.
Évaluation objective : nous fournissons des mesures d'évaluation complètes, notamment la distance audio Frechet (FAD) et la cohérence du cycle CLASP (C3), pour évaluer la qualité et la cohérence de la musique générée.
Pour exécuter Ainur, assurez-vous que les dépendances suivantes sont installées :
Python3.8+
PyTorch 1.13.1
PyTorch Foudre 2.0.0
Vous pouvez installer les packages Python requis en exécutant :
pip install -r exigences.txt
Clonez ce dépôt :
git clone https://github.com/ainur-music/ainur.gitcd ainur
Installez les dépendances (comme mentionné ci-dessus).
Exécutez Ainur avec l’entrée souhaitée. Consultez les exemples de cahiers dans le dossier examples
pour obtenir des conseils sur l'utilisation d'Ainur pour la génération de musique. ( à venir )
Ainur guide la génération de musique et améliore la qualité du chant grâce à des informations textuelles et des paroles synchronisées. Voici des exemples d'entrées pour s'entraîner et générer de la musique avec Ainur :
«Red Hot Chili Peppers, Alternative Rock, 7 of 19»
«[00:45.18] I got your hey oh, now listen what I say oh [...]»
Nous comparons les performances d'Ainur avec d'autres modèles de pointe pour la génération de texte en musique. Nous avons basé l'évaluation sur des mesures objectives telles que FAD et en utilisant différents modèles d'intégration pour référence : VGGish, YAMNet et Trill.
Modèle | Taux [kHz] | Longueur [s] | Paramètres [M] | Étapes d'inférence | Temps d'inférence [s] ↓ | FAD VGGish ↓ | FAD YAMNet ↓ | Trille FAD ↓ |
---|---|---|---|---|---|---|---|---|
Aïnur | 48@2 | 22 | 910 | 50 | 14.5 | 8.38 | 20h70 | 0,66 |
Ainur (pas de FERMOIR) | 48@2 | 22 | 910 | 50 | 14.7 | 8h40 | 20.86 | 0,64 |
AudioLDM | 16@1 | 22 | 181 | 200 | 2.20 | 15,5 | 784.2 | 0,52 |
AudioLDM 2 | 16@1 | 22 | 1100 | 100 | 20,8 | 8,67 | 23.92 | 0,52 |
MusiqueGen | 16@1 | 22 | 300 | 1500 | 81,3 | 14.4 | 53.04 | 0,66 |
Juke-box | 16@1 | 1 | 1000 | - | 538 | 20.4 | 178.1 | 1,59 |
MusiqueLM | 16@1 | 5 | 1890 | 125 | 153 | 15,0 | 61,58 | 0,47 |
Riffusion | 44.1@1 | 5 | 890 | 50 | 6,90 | 5.24 | 15.96 | 0,67 |
Explorez et écoutez la musique générée par Ainur ici.
Vous pouvez télécharger des points de contrôle Ainur et CLASP pré-entraînés à partir du lecteur :
Meilleur point de contrôle d'Ainur (modèle avec la perte la plus faible pendant l'entraînement)
Dernier point de contrôle d'Ainur (modèle avec le plus grand nombre d'étapes de formation)
Point de contrôle FERMOIR
Ce projet est sous licence MIT - voir le fichier LICENSE pour plus de détails.
© 2023 Giuseppe Concialdi