Amphion (/æmˈfaɪən/) es un conjunto de herramientas para la generación de audio, música y voz. Su propósito es apoyar la investigación reproducible y ayudar a los investigadores e ingenieros jóvenes a iniciarse en el campo de la investigación y el desarrollo de la generación de audio, música y voz. Amphion ofrece una característica única: visualizaciones de modelos o arquitecturas clásicas. Creemos que estas visualizaciones son beneficiosas para investigadores e ingenieros jóvenes que deseen comprender mejor el modelo.
El objetivo de North-Star de Amphion es ofrecer una plataforma para estudiar la conversión de cualquier entrada en audio. Amphion está diseñado para soportar tareas de generación individuales, que incluyen, entre otras,
TTS : Texto a voz (compatible)
SVS : Síntesis de voz cantante (en desarrollo)
VC : Conversión de voz (en desarrollo)
SVC : Conversión de voz cantada (compatible)
TTA : Texto a audio (compatible)
TTM : Texto a Música (en desarrollo)
más…
Además de las tareas de generación específicas, Amphion incluye varios vocoders y métricas de evaluación . Un vocodificador es un módulo importante para producir señales de audio de alta calidad, mientras que las métricas de evaluación son fundamentales para garantizar métricas consistentes en las tareas de generación. Además, Amphion se dedica a mejorar la generación de audio en aplicaciones del mundo real, como la creación de conjuntos de datos a gran escala para la síntesis de voz.
19/10/2024 : Lanzamos MaskGCT , un modelo TTS totalmente no autorregresivo que elimina la necesidad de información de alineación explícita entre la supervisión de texto y voz. MaskGCT está entrenado en el conjunto de datos de Emilia y logra un rendimiento TTS de disparo cero SOTA.
01/09/2024 : ¡Amphion, Emilia y DSFF-SVC fueron aceptados por IEEE SLT 2024! ?
28/08/2024 : Bienvenido a unirse al canal Discord de Amphion para mantenerse conectado e interactuar con nuestra comunidad!
20/08/2024 : SingVisio fue aceptado por Computers & Graphics, ¡disponible aquí! ?
27/08/2024 : ¡El conjunto de datos de Emilia ya está disponible públicamente! Descubra el conjunto de datos de generación de voz más extenso y diverso con 101.000 horas de datos de voz disponibles ahora en o ! ???
01/07/2024 : Amphion ahora lanza Emilia , el primer conjunto de datos multilingüe de código abierto para la generación de voz con más de 101.000 horas de datos de voz, y Emilia-Pipe , el primer canal de preprocesamiento de código abierto diseñado para transformar ¡Datos de voz naturales en datos de entrenamiento de alta calidad con anotaciones para la generación de voz!
17/06/2024 : ¡Amphion tiene un nuevo lanzamiento para su modelo VALL-E ! Utiliza Llama como arquitectura subyacente y tiene un mejor rendimiento del modelo, una velocidad de entrenamiento más rápida y códigos más legibles en comparación con nuestra primera versión.
12/03/2024 : Amphion ahora es compatible con NaturalSpeech3 FACodec y lanza puntos de control previamente entrenados.
22/02/2024 : Lanzamiento de la primera herramienta de visualización de Amphion, SingVisio .
18/12/2023 : Lanzamiento de Amphion v0.1.
28/11/2023 : Lanzamiento de Amphion alfa.
Amphion logra un rendimiento de última generación en comparación con los repositorios de código abierto existentes en sistemas de conversión de texto a voz (TTS). Soporta los siguientes modelos o arquitecturas:
FastSpeech2: una arquitectura TTS no autorregresiva que utiliza bloques Transformer de avance.
VITS: una arquitectura TTS de extremo a extremo que utiliza un codificador automático variacional condicional con aprendizaje adversario
VALL-E: una arquitectura TTS de disparo cero que utiliza un modelo de lenguaje de códec neuronal con códigos discretos.
NaturalSpeech2: una arquitectura para TTS que utiliza un modelo de difusión latente para generar voces con sonido natural.
Jets: un modelo TTS de extremo a extremo que entrena conjuntamente FastSpeech2 y HiFi-GAN con un módulo de alineación.
MaskGCT: una arquitectura TTS totalmente no autorregresiva que elimina la necesidad de información de alineación explícita entre la supervisión de texto y voz.
Ampion admite múltiples funciones basadas en contenido de varios modelos previamente entrenados, incluidos WeNet, Whisper y ContentVec. Sus funciones específicas en SVC se investigaron en nuestro artículo SLT 2024.
Amphion implementa varias arquitecturas de modelos de última generación, incluidos modelos basados en difusión, transformador, VAE y flujo. La arquitectura basada en difusión utiliza CNN dilatada bidireccional como backend y admite varios algoritmos de muestreo como DDPM, DDIM y PNDM. Además, admite la inferencia de un solo paso basada en el modelo de coherencia.
Amphion apoya el TTA con un modelo de difusión latente. Está diseñado como AudioLDM, Make-an-Audio y AUDIT. También es la implementación oficial de la parte de generación de texto a audio de nuestro documento NeurIPS 2023.
Amphion admite varios codificadores de voz neuronales ampliamente utilizados, que incluyen:
Vocoders basados en GAN: MelGAN, HiFi-GAN, NSF-HiFiGAN, BigVGAN, APNet.
Vocoders basados en flujo: WaveGlow.
Vocoders basados en difusión: Diffwave.
Vocoders basados en autorregresivos: WaveNet, WaveRNN.
Amphion proporciona la implementación oficial del discriminador de transformada Q constante de múltiples escalas (nuestro documento ICASSP 2024). Se puede utilizar para mejorar cualquier arquitectura de codificadores de voz basados en GAN durante el entrenamiento y mantener la etapa de inferencia (como la memoria o la velocidad) sin cambios.
Amphion proporciona una evaluación objetiva integral del audio generado. Las métricas de evaluación contienen:
Modelado F0 : Coeficientes de Pearson F0, Error cuadrático medio de periodicidad F0, Error cuadrático medio de F0, Puntuación F1 sonora/sorda, etc.
Modelado de energía : error cuadrático medio de la raíz de energía, coeficientes de Pearson de energía, etc.
Inteligibilidad : tasa de error de caracteres/palabras, que se puede calcular en función de Whisper y más.
Distorsión del espectrograma : distancia de audio de frecuencia (FAD), distorsión cepstral Mel (MCD), distancia STFT de resolución múltiple (MSTFT), evaluación perceptiva de la calidad del habla (PESQ), inteligibilidad objetiva de corto plazo (STOI), etc.
Similitud del hablante : similitud del coseno, que se puede calcular en función de RawNet3, Resemblyzer, WeSpeaker, WavLM y más.
Amphion unifica el preproceso de datos de conjuntos de datos de código abierto, incluidos AudioCaps, LibriTTS, LJSpeech, M4Singer, Opencpop, OpenSinger, SVCC, VCTK y más. La lista de conjuntos de datos admitidos se puede ver aquí (actualización).
¡Amphion (exclusivamente) admite el conjunto de datos de Emilia y su canal de preprocesamiento Emilia-Pipe para datos de voz en estado salvaje!
Amphion proporciona herramientas de visualización para ilustrar interactivamente el mecanismo de procesamiento interno de los modelos clásicos. Esto proporciona un recurso invaluable para fines educativos y para facilitar una investigación comprensible.
Actualmente, Amphion es compatible con SingVisio, una herramienta de visualización del modelo de difusión para la conversión de voz cantada.
Amphion se puede instalar a través del instalador de configuración o de Docker Image.
git clone https://github.com/open-mmlab/Amphion.gitcd Amphion# Instalar Python Environmentconda create --name amphion python=3.9.15 conda activar amphion# Instalar dependencias de paquetes de Pythonsh env.sh
Instale Docker, el controlador NVIDIA, el kit de herramientas de contenedor NVIDIA y CUDA.
Ejecute los siguientes comandos:
clon de git https://github.com/open-mmlab/Amphion.gitcd Amphion docker tira realamphion/amphion ejecución de la ventana acoplable --runtime=nvidia --gpus all -it -v .:/app realamphion/amphion
Montar el conjunto de datos con el argumento -v
es necesario cuando se utiliza Docker. Consulte Montar conjunto de datos en contenedor Docker y Docker Docs para obtener más detalles.
Te detallamos las instrucciones de diferentes tareas en las siguientes recetas:
Texto a voz (TTS)
Conversión de voz para cantar (SVC)
Texto a audio (TTA)
codificador de voz
Evaluación
Visualización
Agradecemos todas las contribuciones para mejorar Amphion. Consulte CONTRIBUTING.md para conocer las pautas de contribución.
FastSpeech2 de ming024 y VITS de jaywalnut310 para el código de arquitectura del modelo.
VALL-E de lifeiteng para el diseño de arquitectura de modelos y canalización de capacitación.
SpeechTokenizer para el diseño de tokenizadores destilados semánticamente.
WeNet, Whisper, ContentVec y RawNet3 para modelos previamente entrenados y código de inferencia.
HiFi-GAN para la estrategia de capacitación y diseño de arquitectura de Vocoder basado en GAN.
Codec para arquitectura y bloques básicos de GAN Discriminator bien organizados.
Difusión latente para el diseño de arquitectura de modelos.
TensorFlowTTS para preparar las herramientas MFA.
Amphion está bajo la licencia MIT. Es gratuito tanto para casos de uso comercial como de investigación.
@inproceedings{amphion,author={Zhang, Xueyao y Xue, Liumeng y Gu, Yicheng y Wang, Yuancheng y Li, Jiaqi y He, Haorui y Wang, Chaoren y Song, Ting y Chen, Xi y Fang, Zihao y Chen, Haopeng y Zhang, Junan y Tang, Tze Ying y Zou, Lexiao y Wang, Mingxuan y Han, Jun y Chen, Kai y Li, Haizhou y Wu, Zhizheng},title={Amphion: un audio, música y discurso de código abierto Generation Toolkit},booktitle={{IEEE} Taller de tecnología del lenguaje hablado, {SLT} 2024},año={2024}}