Айнур — это инновационная модель глубокого обучения для условной мультимодальной генерации музыки. Он предназначен для генерации высококачественных образцов стереофонической музыки с частотой 48 кГц, обработанных различными входными данными, такими как тексты песен, текстовые дескрипторы и другой звук. Иерархическая диффузионная архитектура Ainur в сочетании с встраиваниями CLASP позволяет создавать связные и выразительные музыкальные композиции в широком диапазоне жанров и стилей.
Условная генерация: Ainur позволяет генерировать музыку на основе текстов, текстовых дескрипторов или другого аудио, предлагая гибкий и творческий подход к музыкальной композиции.
Высококачественный вывод: модель способна воспроизводить 22-секундные стереофонические музыкальные сэмплы с частотой 48 кГц, обеспечивая высокую точность и реализм.
Мультимодальное обучение: Айнур использует встраивания CLASP, которые представляют собой мультимодальные представления текстов и аудио, чтобы облегчить согласование текстовых текстов с соответствующими аудиофрагментами.
Объективная оценка: мы предоставляем комплексные показатели оценки, включая расстояние аудио Фреше (FAD) и согласованность цикла CLASP (C3), для оценки качества и согласованности создаваемой музыки.
Чтобы запустить Ainur, убедитесь, что у вас установлены следующие зависимости:
Питон 3.8+
ПиТорч 1.13.1
PyTorch Молния 2.0.0
Вы можете установить необходимые пакеты Python, выполнив:
pip install -r требования.txt
Клонируйте этот репозиторий:
git клон https://github.com/ainur-music/ainur.gitcd ainur
Установите зависимости (как указано выше).
Запустите Айнур с желаемым вводом. Ознакомьтесь с примерами блокнотов в папке examples
, чтобы получить рекомендации по использованию Ainur для создания музыки. ( вскоре )
Айнур руководит созданием музыки и улучшает качество вокала с помощью текстовой информации и синхронизированных текстов. Вот примеры входных данных для обучения и создания музыки с помощью Ainur:
«Red Hot Chili Peppers, Alternative Rock, 7 of 19»
«[00:45.18] I got your hey oh, now listen what I say oh [...]»
Мы сравниваем производительность Ainur с другой современной моделью преобразования текста в музыку. Мы основывали оценку на объективных показателях, таких как FAD, и использовали для справки различные модели внедрения: VGGish, YAMNet и Trill.
Модель | Частота [кГц] | Длина [с] | Параметры [М] | Шаги вывода | Время вывода [с] ↓ | ФАД ВГГиш ↓ | ФАД ЯМНет ↓ | ФАД Трель ↓ |
---|---|---|---|---|---|---|---|---|
Айнур | 48@2 | 22 | 910 | 50 | 14,5 | 8.38 | 20.70 | 0,66 |
Айнур (без CLASP) | 48@2 | 22 | 910 | 50 | 14,7 | 8.40 | 20.86 | 0,64 |
АудиоLDM | 16@1 | 22 | 181 | 200 | 2.20 | 15,5 | 784,2 | 0,52 |
АудиоЛДМ 2 | 16@1 | 22 | 1100 | 100 | 20,8 | 8,67 | 23.92 | 0,52 |
МузыкаГен | 16@1 | 22 | 300 | 1500 | 81,3 | 14,4 | 53.04 | 0,66 |
Музыкальный автомат | 16@1 | 1 | 1000 | - | 538 | 20,4 | 178,1 | 1,59 |
МузыкаLM | 16@1 | 5 | 1890 г. | 125 | 153 | 15,0 | 61,58 | 0,47 |
Риффузия | 44,1@1 | 5 | 890 | 50 | 6.90 | 5.24 | 15.96 | 0,67 |
Исследуйте и слушайте музыку, созданную Айнур, здесь.
Вы можете скачать с диска предварительно обученные чекпоинты Айнур и CLASP:
Лучшая контрольная точка Айнур (модель с наименьшими потерями при обучении)
Последняя контрольная точка Айнур (модель с наибольшим количеством тренировочных шагов)
Контрольно-пропускной пункт CLASP
Этот проект лицензируется по лицензии MIT — подробности см. в файле ЛИЦЕНЗИИ.
© 2023 Джузеппе Консиальди