Amphion (/æmˈfaɪən/) est une boîte à outils pour la génération audio, musicale et vocale. Son objectif est de soutenir la recherche reproductible et d’aider les jeunes chercheurs et ingénieurs à se lancer dans le domaine de la recherche et du développement dans le domaine de l’audio, de la musique et de la parole. Amphion propose une fonctionnalité unique : des visualisations de modèles ou d'architectures classiques. Nous pensons que ces visualisations sont bénéfiques pour les jeunes chercheurs et ingénieurs qui souhaitent mieux comprendre le modèle.
L'objectif de North-Star d'Amphion est d'offrir une plateforme pour étudier la conversion de toutes entrées en audio. Amphion est conçu pour prendre en charge les tâches de génération individuelles, y compris, mais sans s'y limiter :
TTS : synthèse vocale (pris en charge)
SVS : Synthèse Voix Chantée (en développement)
VC : Conversion Vocale (en développement)
SVC : Conversion de voix chantée (prise en charge)
TTA : Texte en audio (pris en charge)
TTM : Text to Music (en développement)
plus…
En plus des tâches de génération spécifiques, Amphion comprend plusieurs vocodeurs et métriques d'évaluation . Un vocodeur est un module important pour produire des signaux audio de haute qualité, tandis que les métriques d'évaluation sont essentielles pour garantir la cohérence des métriques dans les tâches de génération. De plus, Amphion se consacre à faire progresser la génération audio dans des applications du monde réel, telles que la création d'ensembles de données à grande échelle pour la synthèse vocale.
19/10/2024 : Nous publions MaskGCT , un modèle TTS entièrement non autorégressif qui élimine le besoin d'informations d'alignement explicites entre la supervision du texte et de la parole. MaskGCT est formé sur l'ensemble de données Emilia et atteint les performances TTS zéro tir SOTA.
01/09/2024 : Amphion, Emilia et DSFF-SVC ont été acceptés par IEEE SLT 2024 ! ?
2024/08/28 : Bienvenue sur la chaîne Discord d'Amphion pour rester connecté et interagir avec notre communauté!
20/08/2024 : SingVisio a été accepté par Computers & Graphics, disponible ici ! ?
2024/08/27 : L'ensemble de données Emilia est désormais accessible au public ! Découvrez l'ensemble de données de génération vocale le plus complet et le plus diversifié avec 101 000 heures de données vocales en milieu naturel dès maintenant sur ou ! ???
01/07/2024 : Amphion lance désormais Emilia , le premier ensemble de données multilingues open source pour la génération de parole avec plus de 101 000 heures de données vocales, et Emilia-Pipe , le premier pipeline de prétraitement open source conçu pour transformer des données vocales sauvages en données d'entraînement de haute qualité avec des annotations pour la génération vocale !
17/06/2024 : Amphion a une nouvelle version pour son modèle VALL-E ! Il utilise Llama comme architecture sous-jacente et offre de meilleures performances de modèle, une vitesse de formation plus rapide et des codes plus lisibles par rapport à notre première version.
12/03/2024 : Amphion prend désormais en charge NaturalSpeech3 FACodec et publie des points de contrôle pré-entraînés.
2024/02/22 : Sortie du premier outil de visualisation Amphion, SingVisio .
18/12/2023 : Sortie d'Amphion v0.1.
28/11/2023 : Sortie d'Amphion alpha.
Amphion atteint des performances de pointe par rapport aux référentiels open source existants sur les systèmes de synthèse vocale (TTS). Il prend en charge les modèles ou architectures suivants :
FastSpeech2 : une architecture TTS non autorégressive qui utilise des blocs Transformer à action directe.
VITS : une architecture TTS de bout en bout qui utilise un encodeur automatique variationnel conditionnel avec apprentissage contradictoire
VALL-E : une architecture TTS sans tir qui utilise un modèle de langage de codec neuronal avec des codes discrets.
NaturalSpeech2 : une architecture pour TTS qui utilise un modèle de diffusion latente pour générer des voix au son naturel.
Jets : un modèle TTS de bout en bout qui entraîne conjointement FastSpeech2 et HiFi-GAN avec un module d'alignement.
MaskGCT : une architecture TTS entièrement non autorégressive qui élimine le besoin d'informations d'alignement explicites entre la supervision du texte et de la parole.
Ampion prend en charge plusieurs fonctionnalités basées sur le contenu de divers modèles pré-entraînés, notamment WeNet, Whisper et ContentVec. Leurs rôles spécifiques dans SVC ont été étudiés dans notre article SLT 2024.
Amphion implémente plusieurs architectures de modèles de pointe, notamment des modèles basés sur la diffusion, le transformateur, le VAE et le flux. L'architecture basée sur la diffusion utilise un CNN dilaté bidirectionnel comme backend et prend en charge plusieurs algorithmes d'échantillonnage tels que DDPM, DDIM et PNDM. De plus, il prend en charge l'inférence en une seule étape basée sur le modèle de cohérence.
Amphion prend en charge le TTA avec un modèle de diffusion latente. Il est conçu comme AudioLDM, Make-an-Audio et AUDIT. Il s'agit également de l'implémentation officielle de la partie génération texte-audio de notre article NeurIPS 2023.
Amphion prend en charge divers vocodeurs neuronaux largement utilisés, notamment :
Vocodeurs basés sur GAN : MelGAN, HiFi-GAN, NSF-HiFiGAN, BigVGAN, APNet.
Vocodeurs basés sur le flux : WaveGlow.
Vocoders basés sur la diffusion : Diffwave.
Vocoders basés sur l'auto-régression : WaveNet, WaveRNN.
Amphion fournit l'implémentation officielle du discriminateur de transformation multi-échelle à Q constant (notre article ICASSP 2024). Il peut être utilisé pour améliorer n'importe quelle architecture de vocodeurs basée sur GAN pendant la formation et maintenir l'étape d'inférence (telle que la mémoire ou la vitesse) inchangée.
Amphion fournit une évaluation objective complète de l’audio généré. Les métriques d'évaluation contiennent :
Modélisation F0 : coefficients de Pearson F0, erreur quadratique moyenne de périodicité F0, erreur quadratique moyenne F0, score F1 exprimé/non exprimé, etc.
Modélisation énergétique : erreur quadratique moyenne de l'énergie, coefficients de Pearson énergétiques, etc.
Intelligibilité : taux d'erreur de caractère/mot, qui peut être calculé en fonction de Whisper et plus encore.
Distorsion du spectrogramme : distance audio Frechet (FAD), distorsion cepstrale de Mel (MCD), distance STFT multi-résolution (MSTFT), évaluation perceptuelle de la qualité de la parole (PESQ), intelligibilité des objectifs à court terme (STOI), etc.
Similarité des haut-parleurs : similarité cosinus, qui peut être calculée sur la base de RawNet3, Resemblyzer, WeSpeaker, WavLM et plus encore.
Amphion unifie le prétraitement des données des ensembles de données open source, notamment AudioCaps, LibriTTS, LJSpeech, M4Singer, Opencpop, OpenSinger, SVCC, VCTK, etc. La liste des ensembles de données pris en charge peut être consultée ici (mise à jour).
Amphion (exclusivement) prend en charge l'ensemble de données Emilia et son pipeline de prétraitement Emilia-Pipe pour les données vocales sauvages !
Amphion fournit des outils de visualisation pour illustrer de manière interactive le mécanisme de traitement interne des modèles classiques. Cela constitue une ressource inestimable à des fins éducatives et pour faciliter une recherche compréhensible.
Actuellement, Amphion prend en charge SingVisio, un outil de visualisation du modèle de diffusion pour la conversion de la voix chantée.
Amphion peut être installé via le programme d'installation ou Docker Image.
git clone https://github.com/open-mmlab/Amphion.gitcd Amphion# Installer l'environnement Pythonconda create --name amphion python=3.9.15 conda activate amphion# Installer les dépendances des packages Pythonsh env.sh
Installez Docker, le pilote NVIDIA, NVIDIA Container Toolkit et CUDA.
Exécutez les commandes suivantes :
clone git https://github.com/open-mmlab/Amphion.gitcd Amphion docker pull réamphion/amphion docker run --runtime=nvidia --gpus all -it -v .:/app realamphion/amphion
Monter l'ensemble de données par l'argument -v
est nécessaire lors de l'utilisation de Docker. Veuillez vous référer à Monter l'ensemble de données dans le conteneur Docker et à Docker Docs pour plus de détails.
Nous détaillons les instructions des différentes tâches dans les recettes suivantes :
Synthèse vocale (TTS)
Conversion de voix chantée (SVC)
Texte en audio (TTA)
Vocodeur
Évaluation
Visualisation
Nous apprécions toutes les contributions visant à améliorer Amphion. Veuillez vous référer à CONTRIBUTING.md pour les directives de contribution.
FastSpeech2 de ming024 et VITS de jaywalnut310 pour le code d'architecture de modèle.
VALL-E de lifeiteng pour la conception de pipelines de formation et d'architecture de modèles.
SpeechTokenizer pour la conception de tokenizer distillés sémantiquement.
WeNet, Whisper, ContentVec et RawNet3 pour les modèles pré-entraînés et le code d'inférence.
HiFi-GAN pour la conception de l'architecture et la stratégie de formation du Vocoder basé sur GAN.
Encodec pour l'architecture et les blocs de base bien organisés du GAN Discriminator.
Diffusion latente pour la conception d'architecture de modèles.
TensorFlowTTS pour préparer les outils MFA.
Amphion est sous licence MIT. Il est gratuit pour les cas d’utilisation de recherche et commerciaux.
@inproceedings{amphion,author={Zhang, Xueyao et Xue, Liumeng et Gu, Yicheng et Wang, Yuancheng et Li, Jiaqi et He, Haorui et Wang, Chaoren et Song, Ting et Chen, Xi et Fang, Zihao et Chen, Haopeng et Zhang, Junan et Tang, Tze Ying et Zou, Lexiao et Wang, Mingxuan et Han, Jun et Chen, Kai et Li, Haizhou et Wu, Zhizheng},title={Amphion : un audio, une musique et une parole open source Generation Toolkit},booktitle={{IEEE} Atelier sur la technologie du langage parlé, {SLT} 2024},year={2024}}