Amphion (/æmˈfaɪən/) é um kit de ferramentas para geração de áudio, música e fala. Seu objetivo é apoiar pesquisas reproduzíveis e ajudar pesquisadores e engenheiros juniores a começarem na área de pesquisa e desenvolvimento de áudio, música e geração de fala. Amphion oferece um recurso único: visualizações de modelos ou arquiteturas clássicas. Acreditamos que essas visualizações são benéficas para pesquisadores e engenheiros juniores que desejam obter uma melhor compreensão do modelo.
O objetivo North-Star do Amphion é oferecer uma plataforma para estudar a conversão de quaisquer entradas em áudio. O Amphion foi projetado para apoiar tarefas de geração individuais, incluindo, mas não se limitando a,
TTS : Texto para fala (suportado)
SVS : Síntese de Voz Cantada (em desenvolvimento)
VC : Conversão de Voz (em desenvolvimento)
SVC : Conversão de voz cantada (suportado)
TTA : Texto para Áudio (suportado)
TTM : Texto para Música (em desenvolvimento)
mais…
Além das tarefas específicas de geração, o Amphion inclui diversos vocoders e métricas de avaliação . Um vocoder é um módulo importante para a produção de sinais de áudio de alta qualidade, enquanto as métricas de avaliação são críticas para garantir métricas consistentes em tarefas de geração. Além disso, a Amphion se dedica ao avanço da geração de áudio em aplicações do mundo real, como a construção de conjuntos de dados em grande escala para síntese de voz.
19/10/2024 : Lançamos MaskGCT , um modelo TTS totalmente não autorregressivo que elimina a necessidade de informações de alinhamento explícitas entre supervisão de texto e fala. MaskGCT é treinado no conjunto de dados Emilia e atinge desempenho TTS SOTA zero-shot.
01/09/2024 : Amphion, Emilia e DSFF-SVC foram aceitos pelo IEEE SLT 2024! ?
28/08/2024 : Bem-vindo ao canal Discord da Amphion para se manter conectado e interagir com nossa comunidade!
2024/08/20 : SingVisio foi aceito pela Computers & Graphics, disponível aqui! ?
27/08/2024 : O conjunto de dados Emilia está agora disponível publicamente! Descubra o conjunto de dados de geração de voz mais extenso e diversificado com 101 mil horas de dados de voz disponíveis agora em ou ! ???
01/07/2024 : Amphion agora lança Emilia , o primeiro conjunto de dados multilíngue de código aberto para geração de fala com mais de 101 mil horas de dados de fala, e o Emilia-Pipe , o primeiro pipeline de pré-processamento de código aberto projetado para transformar dados de fala in-the-wild em dados de treinamento de alta qualidade com anotações para geração de fala!
17/06/2024 : Amphion tem novo lançamento para seu modelo VALL-E ! Ele usa Llama como arquitetura subjacente e tem melhor desempenho de modelo, velocidade de treinamento mais rápida e códigos mais legíveis em comparação com nossa primeira versão.
2024/03/12 : Amphion agora suporta NaturalSpeech3 FACodec e libera pontos de verificação pré-treinados.
22/02/2024 : Lançamento da primeira ferramenta de visualização Amphion, SingVisio .
2023/12/18 : Lançamento do Amphion v0.1.
2023/11/28 : Lançamento do Amphion alfa.
O Amphion alcança desempenho de última geração em comparação com repositórios de código aberto existentes em sistemas de conversão de texto em fala (TTS). Suporta os seguintes modelos ou arquiteturas:
FastSpeech2: Uma arquitetura TTS não autorregressiva que utiliza blocos Transformer feed-forward.
VITS: Uma arquitetura TTS ponta a ponta que utiliza autoencoder variacional condicional com aprendizado adversário
VALL-E: Uma arquitetura TTS zero-shot que usa um modelo de linguagem de codec neural com códigos discretos.
NaturalSpeech2: Uma arquitetura para TTS que utiliza um modelo de difusão latente para gerar vozes com som natural.
Jatos: um modelo TTS ponta a ponta que treina em conjunto FastSpeech2 e HiFi-GAN com um módulo de alinhamento.
MaskGCT: uma arquitetura TTS totalmente não autorregressiva que elimina a necessidade de informações de alinhamento explícitas entre supervisão de texto e fala.
Ampion oferece suporte a vários recursos baseados em conteúdo de vários modelos pré-treinados, incluindo WeNet, Whisper e ContentVec. Suas funções específicas no SVC foram investigadas em nosso artigo SLT 2024.
A Amphion implementa diversas arquiteturas de modelos de última geração, incluindo modelos baseados em difusão, transformador, VAE e fluxo. A arquitetura baseada em difusão usa CNN dilatada bidirecional como backend e suporta vários algoritmos de amostragem, como DDPM, DDIM e PNDM. Além disso, suporta inferência de etapa única baseada no Modelo de Consistência.
Amphion apoia o TTA com um modelo de difusão latente. Ele foi projetado como AudioLDM, Make-an-Audio e AUDIT. É também a implementação oficial da parte de geração de texto para áudio de nosso artigo NeurIPS 2023.
Amphion oferece suporte a vários vocoders neurais amplamente utilizados, incluindo:
Vocodificadores baseados em GAN: MelGAN, HiFi-GAN, NSF-HiFiGAN, BigVGAN, APNet.
Vocoders baseados em fluxo: WaveGlow.
Vocoders baseados em difusão: Diffwave.
Vocoders baseados em auto-regressão: WaveNet, WaveRNN.
Amphion fornece a implementação oficial do Multi-Scale Constant-Q Transform Discriminator (nosso artigo ICASSP 2024). Ele pode ser usado para aprimorar qualquer vocoders baseados em GAN de arquitetura durante o treinamento e manter o estágio de inferência (como memória ou velocidade) inalterado.
Amphion fornece uma avaliação objetiva abrangente do áudio gerado. As métricas de avaliação contêm:
Modelagem F0 : Coeficientes de Pearson F0, Erro Quadrático Médio de Periodicidade F0, Erro Quadrático Médio de Raiz F0, Pontuação F1 expressada/não expressada, etc.
Modelagem de energia : erro quadrático médio da raiz da energia, coeficientes de Pearson de energia, etc.
Inteligibilidade : Taxa de erro de caracteres/palavras, que pode ser calculada com base no Whisper e muito mais.
Distorção de Espectrograma : Distância de Áudio Frechet (FAD), Distorção Mel Cepstral (MCD), Distância STFT Multi-Resolução (MSTFT), Avaliação Perceptual da Qualidade da Fala (PESQ), Inteligibilidade Objetiva de Curto Tempo (STOI), etc.
Similaridade de alto-falante : similaridade de cosseno, que pode ser calculada com base em RawNet3, Resemblyzer, WeSpeaker, WavLM e muito mais.
Amphion unifica o pré-processamento de dados dos conjuntos de dados de código aberto, incluindo AudioCaps, LibriTTS, LJSpeech, M4Singer, Opencpop, OpenSinger, SVCC, VCTK e muito mais. A lista de conjuntos de dados suportados pode ser vista aqui (atualização).
Amphion (exclusivamente) suporta o conjunto de dados Emilia e seu pipeline de pré-processamento Emilia-Pipe para dados de fala em estado selvagem!
Amphion fornece ferramentas de visualização para ilustrar interativamente o mecanismo de processamento interno de modelos clássicos. Isso fornece um recurso inestimável para fins educacionais e para facilitar pesquisas compreensíveis.
Atualmente, o Amphion oferece suporte ao SingVisio, uma ferramenta de visualização do modelo de difusão para conversão de voz cantada.
O Amphion pode ser instalado por meio do Setup Installer ou do Docker Image.
git clone https://github.com/open-mmlab/Amphion.gitcd Amphion# Instalar Python Environmentconda create --name amphion python=3.9.15 conda activate amphion# Instalar pacotes Python Dependenciessh env.sh
Instale o Docker, o driver NVIDIA, o NVIDIA Container Toolkit e o CUDA.
Execute os seguintes comandos:
clone do git https://github.com/open-mmlab/Amphion.gitcd Amphion docker pull realamphion/amphion docker run --runtime=nvidia --gpus all -it -v .:/app realamphion/amphion
Montar o conjunto de dados pelo argumento -v
é necessário ao usar o Docker. Consulte Montar conjunto de dados no contêiner Docker e Docker Docs para obter mais detalhes.
Detalhamos as instruções de diferentes tarefas nas seguintes receitas:
Texto para fala (TTS)
Conversão de voz cantada (SVC)
Texto para áudio (TTA)
Vocodificador
Avaliação
Visualização
Agradecemos todas as contribuições para melhorar o Amphion. Consulte CONTRIBUTING.md para obter as diretrizes de contribuição.
FastSpeech2 de ming024 e VITS de jaywalnut310 para código de arquitetura de modelo.
VALL-E da lifeiteng para treinamento de pipeline e design de arquitetura de modelo.
SpeechTokenizer para design de tokenizer destilado semântico.
WeNet, Whisper, ContentVec e RawNet3 para modelos pré-treinados e código de inferência.
HiFi-GAN para projeto de arquitetura e estratégia de treinamento de Vocoder baseado em GAN.
Encodec para arquitetura e blocos básicos bem organizados do GAN Discriminator.
Difusão latente para projeto de arquitetura de modelos.
TensorFlowTTS para preparar as ferramentas de MFA.
Amphion está sob a licença do MIT. É gratuito para casos de pesquisa e uso comercial.
@inproceedings{amhion,author={Zhang, Xueyao e Xue, Liumeng e Gu, Yicheng e Wang, Yuancheng e Li, Jiaqi e He, Haorui e Wang, Chaoren e Song, Ting e Chen, Xi e Fang, Zihao e Chen, Haopeng e Zhang, Junan e Tang, Tze Ying e Zou, Lexiao e Wang, Mingxuan e Han, Jun e Chen, Kai e Li, Haizhou e Wu, Zhizheng},title={Amphion: um áudio, música e fala de código aberto Generation Toolkit},booktitle={{IEEE} Workshop de tecnologia de linguagem falada, {SLT} 2024},year={2024}}