Amphion (/æmˈfaɪən/) — набор инструментов для создания аудио, музыки и речи. Его цель — поддержать воспроизводимые исследования и помочь младшим исследователям и инженерам начать работу в области исследований и разработок в области аудио, музыки и генерации речи. Amphion предлагает уникальную функцию: визуализацию классических моделей или архитектур. Мы считаем, что эти визуализации полезны для младших исследователей и инженеров, которые хотят лучше понять модель.
Задача North-Star компании Amphion — предложить платформу для изучения преобразования любых входных данных в аудио. Amphion предназначен для поддержки индивидуальных задач генерации, включая, помимо прочего,
TTS : преобразование текста в речь (поддерживается)
SVS : Синтез певческого голоса (в разработке)
VC : Преобразование голоса (в разработке)
SVC : преобразование певческого голоса (поддерживается)
TTA : преобразование текста в аудио (поддерживается)
TTM : Текст в музыку (в разработке)
более…
Помимо конкретных задач генерации, Amphion включает в себя несколько вокодеров и метрик оценки . Вокодер является важным модулем для создания высококачественных аудиосигналов, а метрики оценки имеют решающее значение для обеспечения согласованности метрик в задачах генерации. Более того, Amphion стремится улучшить генерацию звука в реальных приложениях, таких как создание крупномасштабных наборов данных для синтеза речи.
19.10.2024 : Мы выпускаем MaskGCT , полностью неавторегрессионную модель TTS, которая устраняет необходимость в явной информации о выравнивании между контролем текста и речи. MaskGCT обучен на наборе данных Emilia и обеспечивает производительность TTS с нулевым выстрелом SOTA.
01.09.2024 : Amphion, Emilia и DSFF-SVC приняты IEEE SLT 2024! ?
28.08.2024 : Добро пожаловать на канал Amphion в Discord, чтобы оставаться на связи и взаимодействовать с нашим сообществом!
20 августа 2024 г .: SingVisio принят журналом Computers & Graphics, доступно здесь! ?
27.08.2024 : Набор данных Emilia теперь общедоступен! Откройте для себя самый обширный и разнообразный набор данных для генерации речи, содержащий 101 тысячу часов реальных речевых данных, прямо сейчас на сайте или! ???
01.07.2024 : Amphion выпускает Emilia , первый многоязычный набор данных с открытым исходным кодом для генерации речи, содержащий более 101 тыс. часов речевых данных, и Emilia-Pipe , первый конвейер предварительной обработки с открытым исходным кодом, предназначенный для преобразования реальные речевые данные в высококачественные обучающие данные с аннотациями для генерации речи!
17.06.2024 : Amphion выпустила новую версию своей модели VALL-E ! Он использует Llama в качестве базовой архитектуры и имеет лучшую производительность модели, более высокую скорость обучения и более читаемый код по сравнению с нашей первой версией.
12.03.2024 : Amphion теперь поддерживает NaturalSpeech3 FACodec и выпускает предварительно обученные контрольные точки.
22.02.2024 : Выпуск первого инструмента визуализации Amphion, SingVisio .
18.12.2023 : Выпуск Amphion v0.1.
28.11.2023 : Выпуск альфа-версии Amphion.
Amphion обеспечивает высочайшую производительность по сравнению с существующими репозиториями с открытым исходным кодом в системах преобразования текста в речь (TTS). Он поддерживает следующие модели или архитектуры:
FastSpeech2: неавторегрессивная архитектура TTS, в которой используются блоки Transformer с прямой связью.
VITS: сквозная архитектура TTS, использующая условный вариационный автокодировщик с состязательным обучением.
VALL-E: архитектура TTS с нулевым выстрелом, в которой используется языковая модель нейронного кодека с дискретными кодами.
NaturalSpeech2: архитектура TTS, которая использует модель скрытой диффузии для создания естественно звучащих голосов.
Jets: сквозная модель TTS, которая совместно обучает FastSpeech2 и HiFi-GAN с помощью модуля выравнивания.
MaskGCT: полностью неавторегрессивная архитектура TTS, которая устраняет необходимость в явной информации о выравнивании между контролем текста и речи.
Ampion поддерживает множество функций на основе контента из различных предварительно обученных моделей, включая WeNet, Whisper и ContentVec. Их конкретная роль в SVC исследована в нашей статье SLT 2024.
Amphion реализует несколько современных архитектур моделей, в том числе модели на основе диффузии, трансформатора, VAE и потока. Архитектура, основанная на диффузии, использует двунаправленную расширенную CNN в качестве серверной части и поддерживает несколько алгоритмов выборки, таких как DDPM, DDIM и PNDM. Кроме того, он поддерживает одношаговый вывод на основе модели согласованности.
Amphion поддерживает ТТА с помощью модели скрытой диффузии. Он спроектирован так же, как AudioLDM, Make-an-Audio и AUDIT. Это также официальная реализация части нашего документа NeurIPS 2023, посвященного преобразованию текста в аудио.
Amphion поддерживает различные широко используемые нейронные вокодеры, в том числе:
Вокодеры на базе GAN: MelGAN, HiFi-GAN, NSF-HiFiGAN, BigVGAN, APNet.
Вокодеры на основе потока: WaveGlow.
Вокодеры на основе диффузии: Diffwave.
Вокодеры на основе авторегрессии: WaveNet, WaveRNN.
Amphion предоставляет официальную реализацию многомасштабного дискриминатора преобразования с постоянной Q (наш документ ICASSP 2024). Его можно использовать для улучшения вокодеров на основе GAN любой архитектуры во время обучения и сохранения неизменным этапа вывода (например, памяти или скорости).
Amphion обеспечивает всестороннюю объективную оценку сгенерированного звука. Метрики оценки содержат:
Моделирование F0 : коэффициенты Пирсона F0, среднеквадратическая ошибка периодичности F0, среднеквадратическая ошибка F0, озвученная/неозвученная оценка F1 и т. д.
Энергетическое моделирование : энергетическая среднеквадратическая ошибка, энергетические коэффициенты Пирсона и т. д.
Разборчивость : частота ошибок в символах/словах, которую можно рассчитать на основе шепота и других данных.
Искажение спектрограммы : расстояние звука по Фреше (FAD), мел-кепстральное искажение (MCD), расстояние STFT с несколькими разрешениями (MSTFT), перцептивная оценка качества речи (PESQ), объективная краткосрочная разборчивость (STOI) и т. д.
Сходство динамиков : косинусное сходство, которое можно рассчитать на основе RawNet3, Resemblyzer, WeSpeaker, WavLM и других.
Amphion унифицирует предварительную обработку данных наборов данных с открытым исходным кодом, включая AudioCaps, LibriTTS, LJSpeech, M4Singer, Opencpop, OpenSinger, SVCC, VCTK и других. Список поддерживаемых наборов данных можно увидеть здесь (обновляется).
Amphion (эксклюзивно) поддерживает набор данных Emilia и его конвейер предварительной обработки Emilia-Pipe для реальных речевых данных!
Amphion предоставляет инструменты визуализации для интерактивной иллюстрации внутреннего механизма обработки классических моделей. Это обеспечивает бесценный ресурс для образовательных целей и облегчения понятных исследований.
В настоящее время Amphion поддерживает SingVisio, инструмент визуализации модели диффузии для преобразования певческого голоса.
Amphion можно установить с помощью установщика установки или образа Docker.
git clone https://github.com/open-mmlab/Amphion.gitcd Amphion# Установить среду Pythonconda create --name amphion python=3.9.15 conda active amphion# Установка пакетов Python Зависимостиsh env.sh
Установите Docker, драйвер NVIDIA, набор инструментов NVIDIA Container Toolkit и CUDA.
Выполните следующие команды:
git клон https://github.com/open-mmlab/Amphion.gitcd Amphion докер тянуть реаламфион/амфион docker run --runtime=nvidia --gpus all -it -v .:/app realamphion/amphion
При использовании Docker необходимо смонтировать набор данных с помощью аргумента -v
. Для получения более подробной информации обратитесь к разделу «Маунт набора данных в контейнере Docker» и документации Docker.
Подробно инструкции различных задач мы даем в следующих рецептах:
Преобразование текста в речь (TTS)
Преобразование певческого голоса (SVC)
Преобразование текста в аудио (TTA)
Вокодер
Оценка
Визуализация
Мы ценим любой вклад в улучшение Amphion. Пожалуйста, обратитесь к CONTRIBUTING.md за рекомендациями по участию.
FastSpeech2 от ming024 и VITS от jaywalnut310 для кода архитектуры модели.
VALL-E от lifeiteng для обучения проектированию конвейеров и архитектуры моделей.
SpeechTokenizer для разработки токенизаторов с семантической очисткой.
WeNet, Whisper, ContentVec и RawNet3 для предварительно обученных моделей и кода вывода.
HiFi-GAN для разработки архитектуры и стратегии обучения вокодера на базе GAN.
Кодек для хорошо организованной архитектуры и основных блоков GAN Discriminator.
Скрытая диффузия для проектирования архитектуры модели.
TensorFlowTTS для подготовки инструментов MFA.
Amphion находится под лицензией MIT. Он бесплатен как для исследовательских, так и для коммерческих целей.
@inproceedings{amphion,author={Чжан, Сюэяо и Сюэ, Люмэн и Гу, Ичэн и Ван, Юаньчэн и Ли, Цзяци и Хэ, Хаоруй и Ван, Чаорен и Сун, Тин и Чен, Си и Фан, Цзыхао и Чэнь, Хаопэн и Чжан, Цзюньань и Тан, Цзы Ин и Цзоу, Лесяо и Ван, Минсюань и Хань, Цзюнь и Чен, Кай и Ли, Хайчжоу и Ву, Чжичжэн},title={Amphion: аудио, музыка и речь с открытым исходным кодом Generation Toolkit},booktitle={{IEEE} Семинар по технологиям разговорного языка, {SLT} 2024},year={2024}}