Download espnet - Download do código fonte espnet

espnet

Outro código-fonte

version 202409

Baixar

Ubuntu/python3.11/pip Ubuntu/python3.10/conda Debian11/python3.10/conda Windows/Python3.10/pip macOS/python3.10/pip MacOS/Python3.10/conda

DOCs | Exemplo | Exemplo (ESPNET2) | Docker | Caderno

O ESPNET é um kit de ferramentas de processamento de fala de ponta a ponta que abrange o reconhecimento de fala de ponta a ponta, o texto a fala, a tradução da fala, o aprimoramento da fala, a diarização do alto-falante, o entendimento da linguagem falada e assim por diante. O ESPNET usa o Pytorch como um mecanismo de aprendizado profundo e também segue o processamento de dados do estilo Kaldi, extração/formato de recurso e receitas para fornecer uma configuração completa para vários experimentos de processamento de fala.

Série tutorial

Tutorial de 2019 na Interspeech
- Material
2021 Tutorial na CMU
- Vídeo online
- Material
2022 Tutorial na CMU
- Uso do ESPNET (ASR como exemplo)
  - Vídeo online
  - Material
- Adicione novos modelos/tarefas ao ESPNET
  - Vídeo online
  - Material

Principais recursos

Receita completa no estilo Kaldi

Apoie os números de receitas ASR (WSJ, Switchboard, CHIME-4/5, Librispeech, TED, CSJ, AMI, Hkust, Voxforge, Reverb, Gigaspeech, etc.)
Apoie o número de receitas TTS de maneira semelhante à receita ASR (LJSpeech, Libritts, M-Aailabs, etc.)
Apoie o número de receitas ST (Espanhol Fisher-CallHome, Libri-Trans, IWSLT'18, How2, Must-C, Mboshi-French, etc.)
Apoie os números de receitas MT (IWSLT'14, IWSLT'16, as receitas acima do ST etc.)
Apoie os números de receitas SLU (Catslu-maps, FSC, Grabo, Iemocap, JDCinal, Snips, Slurp, SWBD-DA, etc.)
Apoie os números de receitas SE/SS (DNS-IS2020, Librimix, SMS-WSJ, VCTK-NOISYRERB, WHAM!, WHAMR!, WSJ-2MIX, etc.)
Apoie a receita de conversão de voz (linha de base do VCC2020)
Suporte a receita de diarização do alto -falante (Mini_librispeech, Librimix)
Apoie a receita de síntese de voz de canto (Ofuton_P_UTAGOE_DB, OpenCpop, M4Singer, etc.)

ASR: reconhecimento automático de fala

Desempenho de última geração em vários benchmarks ASR (comparável/superior ao híbrido DNN/HMM e CTC)
ASR de ponta a ponta baseado em CTC/atenção híbrida
- Treinamento rápido/preciso com CTC/Atenção Multitask Training
- CTC/atenção decodificação conjunta para aumentar a decodificação de alinhamento monotônico
- Codificador: CNN + BIRNN do tipo VGG (LSTM/GRU), sub-amostragem Birnn (LSTM/GRU), transformador, conformador, ramificador ou formador de e-Branch
- Decodificador: rnn (lstm/gru), transformador ou s4
Atenção: Flash Atenção, Produto Dot, Atenção com reconhecimento de localização, variantes de Multi-Head
Incorporar rnnlm/lstmlm/transformadorlm/n-gramas treinadas apenas com dados de texto
Decodificação de GPU em lote
Aumentação de dados
ASR de ponta a ponta baseado em transdutor
- Arquitetura:
  - RNNs de suporte ao codificador personalizado, conformer, BranchFormer (w / variantes), 1d conv / tdnn.
  - Decodificador com parâmetros compartilhados entre blocos que suportam RNN, sem estado com 1d conv, mega e rwkv.
  - Pré-codificador: vgg2l ou conv2d disponível.
- Algoritmos de pesquisa:
  - Pesquisa gananciosa restrita a uma emissão pelo timestep.
  - Algoritmo de pesquisa de feixe padrão [Graves, 2012] sem pesquisa de prefixo.
  - Decodificação síncrona do comprimento do alinhamento [Saon et al., 2020].
  - Decodificação síncrona do tempo [Saon et al., 2020].
  - Pesquisa de feixe restrito de N-Step modificado de [Kim et al., 2020].
  - Pesquisa de expansão adaptativa modificada com base em [Kim et al., 2021] e NSC.
- Características:
  - Interface unificada para reconhecimento offline e de streaming de fala.
  - Aprendizagem de várias tarefas com várias perdas auxiliares:
    - Codificador: CTC, transdutor auxiliar e divergência simétrica de KL.
    - Decodificador: entropia cruzada com suavização de etiquetas.
  - Transfira o aprendizado com um modelo acústico e/ou modelo de idioma.
  - Treinamento com método de regularização Fastemit [Yu et al., 2021].
Consulte a página do tutorial para obter uma documentação completa.
Segmentação do CTC
Modelo não autorregressivo baseado em máscara-ctc
Exemplos ASR para apoiar a documentação de idiomas em extinção (consulte o EGS/Puebla_Nahuatl e EGS/Yoloxochitl_Mixtec para obter detalhes)
Modelo pré-treinado WAV2VEC2.0 como codificador, importado a partir de Fairseq.
Representações de aprendizagem auto-supervisionadas como recursos, usando modelos upstream no S3PRL no frontend.
- Defina frontend para s3prl
- Selecione qualquer modelo upstream definindo o frontend_conf no nome correspondente.
Transferir aprendizado:
- Uso fácil e transferências de modelos anteriormente treinados por seu grupo ou modelos do Repositório de Facos de Abragem da ESPNET.
- Documentação e exemplo de brinquedo executados no COLAB.
Transformador de streaming/conformer asr com pesquisa de feixe síncrono em bloco.
Atenção restrita com base no Longformer como um codificador para sequências longas
Modelo de sussurro OpenAI, ASR robusto com base em aprendizado multitarefa de larga escala e fracamente supervisionado

Demonstração

Demoção ASR em tempo real com ESPNET2
Demonstração da Web Gradio em abraçar espaços de rosto. Confira a demonstração da web
Transformador de streaming ASR Local Demo com ESPNET2.

TTS: Texto para fala

Arquitetura
- Tacotron2
- Transformador-tts
- FastSpeech
- FastSpeech2
- Conformista FastSpeech & FastSpeech2
- Vits
- JATOS
Extensão multi-falante e multi-idioma
- Incorporação de alto-falante pré-treinado (por exemplo, vetor x)
- ID do orador incorporação
- ID ID ID IDENTE
- Token de estilo global (GST) incorporando
- Mistura das incorporações acima
Treinamento de ponta a ponta
- Modelo de texto para ondas de ponta a ponta (por exemplo, vits, jatos, etc.)
- Treinamento conjunto de text2mel e vocoder
Vários suporte ao idioma
- Pt / jp / zn / de / ru / e mais ...
Integração com vocoders neurais
- Gangan de onda paralelo
- Melgan
- Melgan de várias bandas
- Hifigan
- Stylemelgan
- Mistura dos modelos acima

Demonstração

Demo tts em tempo real com ESPNET2
Integrado a abraçar espaços de rosto com Gradio. Veja Demo:

Para treinar o vocoder neural, verifique os seguintes repositórios:

Kan-Bayashi/Parallelwavegan
r9y9/waveNet_vocoder

SE: Aprimoramento da fala (e separação)

Melhoramento de fala de um único alto-falante
Separação de fala de vários falantes
Estrutura unificada do codificador-separador-decodificador para modelos de domínio do tempo e domínio de frequência
- Codificador/decodificador: STFT/ISTFT, Convolução/Convolução Transposta
- Separadores: BLSTM, transformador, conformador, tasnet, dprnn, skim, svoice, dc-crn, dccrn, agrupamento profundo, rede de atratores profunda, fasnet, ifasnet, formas neurais, etc.
Integração flexível do ASR: trabalhando como uma tarefa individual ou como o front -end ASR
Modelos fáceis de importar pré-treinados a partir de asteróides
- Os modelos pré-treinados do asteróide e a configuração específica são suportados.

Demonstração

Demo interativa de SE com ESPNET2
Demoção de streaming SE com ESPNET2

ST: Tradução de fala e MT: Tradução da máquina

Desempenho de última geração em vários benchmarks ST (comparável/superior ao ASR e MT em cascata)
ST de ponta a ponta baseado em transformadores (novo!)
MT de ponta a ponta baseado em transformadores (novo!)

VC: conversão de voz

Transformador e VC paralelo à base de Tacotron2 usando o MEL Spectrogram
VC de ponta a ponta com base no ASR+TTS em cascata (sistema de linha de base para o desafio de conversão de voz 2020!)

SLU: entendimento da linguagem falada

Arquitetura
- Codificador baseado em transformador
- Codificador baseado em conformador
- Codificador baseado em formas de ramificação
- Encoder baseado em formidador eletrônico
- Decodificador baseado em RNN
- Decodificador baseado em transformador
Apoie a multitarefa com ASR
- Prever a transcrição de intenção e ASR
Apoie a multitarefa com a NLU
- Modelo de passe de 2 passes baseado no codificador de deliberação
Suporte usando modelos ASR pré-treinados
- Hubert
- Wav2vec2
- VQ-APC
- Tera e mais ...
Suporte usando modelos de PNL pré-treinados
- Bert
- Mpnet e muito mais ...
Vários suporte ao idioma
- Pt / jp / zn / nl / e mais ...
Suporta o uso do contexto de enunciados anteriores
Suporta o uso de outras tarefas como o SE de maneira pipeline
Suporta dois passam SL que combina demonstração de transcrição de áudio e ASR
Executando o entendimento barulhento da linguagem falada usando um modelo de aprimoramento de fala seguido de um modelo de compreensão de idiomas falado.
Realizar o entendimento da linguagem falada de dois passagens, onde o modelo de Segunda Pass atende a informações acústicas e semânticas.
Integrado a abraçar espaços de rosto com Gradio. Veja a demonstração da SLU em vários idiomas:

Soma: Summarização da fala

Receita de resumo da fala de ponta a ponta para vídeos de instrução usando auto-atimento restrito [Sharma et al., 2022]

SVS: síntese de voz cantando

Framework se fundir de mosquetes
Arquitetura
- Modelo não autorregressivo baseado em RNN
- Xiaoice
- Singing de tacotron
- DiffSinger (em andamento)
- Visinger
- Visinger 2 (suas variações com diferentes vocoders-arquitetura)
Apoie a síntese de canto multi-falante e multilíngue
- ID do orador incorporação
- ID ID ID IDENTE
Vários suporte ao idioma
- Jp / en / kr / zh
Integração rígida com vocoders neurais (o mesmo que TTS)

SSL: Aprendizagem auto-supervisionada

Apoie Hubert pré-treinamento:
- Exemplo de receita: EGS2/LibriSpeech/SSL1

UASR: ASR não supervisionado (Euro: ESPNET Reconhecimento Não Supervisionado - código aberto)

Arquitetura
- wav2vec-u (com diferentes modelos auto-supervisionados)
- wav2vec-u 2.0 (em andamento)
Suporte prefixbeamsearch e decodificação WFST baseada em K2

S2T: Fala para texto com modelos multilíngues multilíngues de estilo sussurro

Reproduz treinamento no estilo sussurro do zero usando dados públicos: OWSM
Suporta várias tarefas em um único modelo
- Reconhecimento multilíngue de fala
- Qualquer tradução para qualquer uma de fala
- Identificação do idioma
- Previsão de timestamp em nível de enunciado (segmentação)

DNN Framework

Arquitetura de rede flexível graças a Chainer e Pytorch
Processamento de front-end flexível graças ao suporte Kaldiio e HDF5
Monitoramento baseado em tensorboard
Treinamento em larga escala baseado em velocidade profunda

ESPNET2

Veja ESPNET2.

Independente de Kaldi/Chainner, diferentemente da ESPNET1
Extração de recurso em voo e processamento de texto ao treinar
Apoiando distribuedDataParalleallel e Daraparallelal ambos
Suportando o treinamento de múltiplos nós e integrado com slurm ou mpi
Apoiar o treinamento sharded fornecido pela FairScale
Uma receita de modelo que pode ser aplicada a todos os corpora
Possível treinar qualquer tamanho de corpus sem erro de memória da CPU
Zoológico do modelo ESPNET
Integrado ao wandb

Instalação

Se você pretende fazer experimentos completos, incluindo treinamento da DNN, consulte a instalação.

Se você só precisa do módulo Python apenas:

 # We recommend you install PyTorch before installing espnet following https://pytorch.org/get-started/locally/
pip install espnet
# To install the latest
# pip install git+https://github.com/espnet/espnet
# To install additional packages
# pip install "espnet[all]"

Se você usa o ESPNET1, instale a corrente e a Cupy.

pip install chainer==6.0.0 cupy==6.0.0    # [Option]

Pode ser necessário instalar alguns pacotes, dependendo de cada tarefa. Preparamos vários scripts de instalação em ferramentas/instaladores.

(ESPNET2) Uma vez instalado, execute wandb login e defina --use_wandb true para ativar o rastreamento de execuções usando W&B.

Docker Container

Vá para o Docker/ e siga as instruções.

Contribuição

Obrigado por reservar um tempo para a ESPNET! Quaisquer contribuições para a ESPNET são bem -vindas e sinta -se à vontade para fazer perguntas ou solicitações a problemas. Se for a sua primeira contribuição da ESPNET, siga o guia de contribuição.

Resultados do ASR

expandir

Listamos a taxa de erro do caractere (CER) e a taxa de erro de palavra (WER) das principais tarefas do ASR.

Tarefa	Cer (%)	Wer (%)	Modelo pré-treinado
Aishell dev/teste	4.6/5.1	N / D	link
ESPNET2 AISHELL DEV/TEST	4.1/4.4	N / D	link
Dev/teste de voz comum	1.7/1.8	2.2/2.3	link
CSJ EVAL1/EVAL2/EVAL3	5.7/3.8/4.2	N / D	link
ESPNET2 CSJ EVAL1/EVAL2/EVAL3	4.5/3.3/3.6	N / D	link
ESPNET2 GIGASPEECH DEV/TEST	N / D	10.6/10.5	link
Hkust dev	23.5	N / D	link
ESPNET2 Hkust Dev	21.2	N / D	link
Librispeech dev_clean/dev_other/test_clean/test_other	N / D	1.9/4.9/2.1/4.9	link
ESPNET2 Librispeech dev_clean/dev_other/test_clean/test_other	0,6/1,5/0.6/1.4	1.7/3.4/1.8/3.6	link
Switchboard (EVAL2000) CALHM/SWBD	N / D	14.0/6.8	link
Quadro de comutação ESPNET2 (EVAL2000) CALHM/SWBD	N / D	13.4/7.3	link
Tedlium2 dev/teste	N / D	8.6/7.2	link
ESPNET2 Tedlium2 dev/teste	N / D	7.3/7.1	link
Tedlium3 dev/teste	N / D	9.6/7.6	link
WSJ Dev93/Eval92	3.2/2.1	7.0/4.7	N / D
ESPNET2 WSJ Dev93/Eval92	1.1/0.8	2.8/1.8	link

Observe que o desempenho das tarefas CSJ, HKUST e Librispeech foi significativamente aprimorado usando a ampla rede (#Units = 1024) e as grandes unidades de subglema, se necessário, relatadas pelo RWTH.

Se você deseja verificar os resultados das outras receitas, verifique egs/<name_of_recipe>/asr1/RESULTS.md .

Demonstração ASR

expandir

Você pode reconhecer o discurso em um arquivo WAV usando modelos pré-treinados. Vá para um diretório de receitas e execute utils/recog_wav.sh da seguinte forma:

 # go to the recipe directory and source path of espnet tools
cd egs/tedlium2/asr1 && . ./path.sh
# let's recognize speech!
recog_wav.sh --models tedlium2.transformer.v1 example.wav

onde example.wav é um arquivo WAV a ser reconhecido. A taxa de amostragem deve ser consistente com a dos dados usados no treinamento.

Os modelos pré-treinados disponíveis no script de demonstração estão listados abaixo.

Modelo	Notas
tedlium2.rnn.v1	Decodificação de streaming com base no VAD baseado em CTC
tedlium2.rnn.v2	Decodificação de streaming com base no VAD baseado em CTC (decodificação em lote)
Tedlium2.Transformer.v1	Transformador de atenção da CTC conjunto treinado no Tedlium 2
Tedlium3.Transformer.v1	Transformador de atenção de CTC conjunta treinada no Tedlium 3
Librispeech.Transformer.v1	Transformador de atenção de CTC conjunta treinada no Libresepech
Commonvoice.Transformer.v1	Transformador de atenção de CTC conjunto treinado em CommonVoice
csj.transformer.v1	Transformador de atenção de CTC conjunto treinado em CSJ
csj.rnn.v1	ATENÇÃO CONJUNTO CTC VGGBLSTM Treinado no CSJ

Resultados de SE

expandir

Listamos os resultados de três modelos diferentes no WSJ0-2MIX, que é o conjunto de dados de referência mais amplamente utilizado para separação de fala.

Modelo	Stoi	Sar	Sdr	SENHOR
Mascaramento tf	0,89	11.40	10.24	18.04
Conv-Tasnet	0,95	16.62	15.94	25.90
DPRNN-TASNET	0,96	18.82	18.29	28.92

SEMOS

expandir

Você pode experimentar a demonstração interativa com o Google Colab. Clique no botão a seguir para obter acesso às demos.

É baseado no ESPNET2. Modelos pré-treinados estão disponíveis para as tarefas de aprimoramento e separação de fala.

Demonsionamentos para streaming de separação de fala:

ST resultados

expandir

Listamos 4 gramas de Bleu das principais tarefas de ST.

sistema de ponta a ponta

Tarefa	Bleu	Modelo pré-treinado
Fisher-callhome Spanish Fisher_test (es-> en)	51.03	link
Fisher-CallHome Espanhol calhome_evltest (es-> en)	20.44	link
Teste de Libri-Trans (en-> fr)	16.70	link
How2 dev5 (en-> pt)	45.68	link
Must-C tst-Common (en-> de)	22.91	link
Mboshi-French Dev (fr-> mboshi)	6.18	N / D

sistema em cascata

Tarefa	Bleu	Modelo pré-treinado
Fisher-callhome Spanish Fisher_test (es-> en)	42.16	N / D
Fisher-CallHome Espanhol calhome_evltest (es-> en)	19.82	N / D
Teste de Libri-Trans (en-> fr)	16.96	N / D
How2 dev5 (en-> pt)	44.90	N / D
Must-C tst-Common (en-> de)	23.65	N / D

Se você deseja verificar os resultados das outras receitas, verifique egs/<name_of_recipe>/st1/RESULTS.md .

ST Demo

expandir

( NOVO! ) Fizemos uma nova demonstração em tempo real do E2E-ST + TTS no Google Colab. Acesse o notebook do botão a seguir e aproveite a tradução em tempo real da fala para fala!

Você pode traduzir a fala em um arquivo WAV usando modelos pré-treinados. Vá para um diretório de receitas e execute utils/translate_wav.sh da seguinte forma:

 # Go to recipe directory and source path of espnet tools
cd egs/fisher_callhome_spanish/st1 && . ./path.sh
# download example wav file
wget -O - https://github.com/espnet/espnet/files/4100928/test.wav.tar.gz | tar zxvf -
# let's translate speech!
translate_wav.sh --models fisher_callhome_spanish.transformer.v1.es-en test.wav

onde test.wav é um arquivo WAV a ser traduzido. A taxa de amostragem deve ser consistente com a dos dados usados no treinamento.

Os modelos pré-treinados disponíveis no script de demonstração estão listados como abaixo.

Modelo	Notas
Fisher_calhome_spanish.transformer.v1	Transformer-st treinou em Fisher-CallHome Spanis

Resultados do MT

expandir

Tarefa	Bleu	Modelo pré-treinado
Fisher-callhome Spanish Fisher_test (es-> en)	61.45	link
Fisher-CallHome Espanhol calhome_evltest (es-> en)	29.86	link
Teste de Libri-Trans (en-> fr)	18.09	link
How2 dev5 (en-> pt)	58.61	link
Must-C tst-Common (en-> de)	27.63	link
IWSLT'14 TEST2014 (EN-> DE)	24.70	link
IWSLT'14 TEST2014 (DE-EN)	29.22	link
IWSLT'14 TEST2014 (DE-EN)	32.2	link
IWSLT'16 TEST2014 (EN-> DE)	24.05	link
IWSLT'16 TEST2014 (DE-EN)	29.13	link

Resultados do TTS

ESPNET2

Você pode ouvir as amostras geradas no seguinte URL.

ESPNET2 TTS gerou amostras

Observe que, na geração, usamos Griffin-LIM ( wav/ ) e WAVANGAGEM PARALLEGEM ( wav_pwg/ ).

Você pode baixar modelos pré-treinados via espnet_model_zoo .

Zoológico do modelo ESPNET
Lista de modelos pré-treinados

Você pode baixar vocoders pré-treinados via kan-bayashi/ParallelWaveGAN .

Kan-Bayashi/Parallelwavegan
Lista de vocoder pré-treinada

ESPNET1

Nota: Estamos nos movendo no desenvolvimento baseado em ESPNET2 para TTS. Verifique os resultados mais recentes nos resultados do ESPNET2 acima.

Você pode ouvir nossas amostras na Demo HP ESPNET-TTS-SAMPLES. Aqui listamos alguns notáveis:

Speaker de inglês único tacotron2
Speaker japonês único tacotron2
O outro alto -falante de idioma TACOTRON2
Falante multi inglês tacotron2
Transformador de alto -falante inglês único
Fastspeech de alto -falante inglês único
Transformador de alto -falante em inglês múltiplo
Fastspeech de alto -falante italiano único
Transformador de orador de mandarim único
Fastspeech de orador de mandarim único
Transformador de alto -falante japonês múltiplo
Modelos de alto -falante em inglês único com onda paralela
FastSpeech baseado em destilação de alto-falante inglês único em inglês

Você pode baixar todos os modelos pré-treinados e amostras geradas:

Todos os modelos E2E-TTS pré-treinados
Todas as amostras geradas

Observe que, nas amostras geradas, usamos os seguintes vocoders: Griffin-Lim ( GL ), vocoder wavenet ( Wavenet ), onda paralelo ( Parallelwavegan ) e Melgan ( Melgan ). Os vocoders neurais são baseados nos seguintes repositórios.

Kan-Bayashi / Parallelwavegan: onda paralelo / Melgan / Multi-Band Melgan
r9y9/wavenet_vocoder: mistura de 16 bits de logística wavenet vocoder
Kan-Bayashi/PytorchwaveNetvocoder: Vocoder de Wavenet de 8 bits Softmax com a modelagem de ruído

Se você deseja construir seu próprio vocoder neural, verifique os repositórios acima. Kan-Bayashi/Parallelwavegan fornece o manual sobre como decodificar os recursos do modelo ESPNET-TTS com vocoders neurais. Por favor, verifique.

Aqui listamos todos os vocoders neurais pré-treinados. Faça o download e aproveite a geração de discurso de alta qualidade!

Modelo Link	Lang	FS [Hz]	Alcance MEL [Hz]	FFT / Shift / Win [PT]	Tipo de modelo
ljspeech.wavenet.softmax.ns.v1	En	22.05k	Nenhum	1024 /256 / nenhum	Softmax wavenet
ljspeech.wavenet.mol.v1	En	22.05k	Nenhum	1024 /256 / nenhum	Mol Wavenet
ljspeech.parallel_wavegan.v1	En	22.05k	Nenhum	1024 /256 / nenhum	Gangan de onda paralelo
ljspeech.wavenet.mol.v2	En	22.05k	80-7600	1024 /256 / nenhum	Mol Wavenet
ljspeech.parallel_wavegan.v2	En	22.05k	80-7600	1024 /256 / nenhum	Gangan de onda paralelo
ljspeech.melgan.v1	En	22.05k	80-7600	1024 /256 / nenhum	Melgan
ljspeech.melgan.v3	En	22.05k	80-7600	1024 /256 / nenhum	Melgan
libritts.wavenet.mol.v1	En	24k	Nenhum	1024 /256 / nenhum	Mol Wavenet
jsut.wavenet.mol.v1	JP	24k	80-7600	2048 /300 /1200	Mol Wavenet
jsut.parallel_wavegan.v1	JP	24k	80-7600	2048 /300 /1200	Gangan de onda paralelo
csmsc.wavenet.mol.v1	Zh	24k	80-7600	2048 /300 /1200	Mol Wavenet
csmsc.parallel_wavegan.v1	Zh	24k	80-7600	2048 /300 /1200	Gangan de onda paralelo

Se você deseja usar os vocoders pré-treinados acima, corresponda exatamente à configuração de recursos com eles.

Demo tts

ESPNET2

Você pode experimentar a demonstração em tempo real no Google Colab. Acesse o notebook do botão a seguir e aproveite a síntese em tempo real!

Demo tts em tempo real com ESPNET2

Os modelos de inglês, japonês e mandarim estão disponíveis na demonstração.

ESPNET1

Nota: Estamos nos movendo no desenvolvimento baseado em ESPNET2 para TTS. Por favor, verifique a demonstração mais recente na demonstração do ESPNET2 acima.

Você pode experimentar a demonstração em tempo real no Google Colab. Acesse o notebook a partir do botão a seguir e aproveite a síntese em tempo real.

Demo tts em tempo real com ESPNET1

Também fornecemos um script de shell para executar a síntese. Vá para um diretório de receitas e execute utils/synth_wav.sh da seguinte forma:

 # Go to recipe directory and source path of espnet tools
cd egs/ljspeech/tts1 && . ./path.sh
# We use an upper-case char sequence for the default model.
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example.txt
# let's synthesize speech!
synth_wav.sh example.txt

# Also, you can use multiple sentences
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example_multi.txt
echo " TEXT TO SPEECH IS A TECHNIQUE TO CONVERT TEXT INTO SPEECH. " >> example_multi.txt
synth_wav.sh example_multi.txt

Você pode alterar o modelo pré-treinado da seguinte maneira:

synth_wav.sh --models ljspeech.fastspeech.v1 example.txt

A síntese da forma de onda é realizada com o algoritmo Griffin-Lim e os vocoders neurais (Wavenet e Parallelwavegan). Você pode alterar o modelo de vocoder pré-treinado da seguinte forma:

synth_wav.sh --vocoder_models ljspeech.wavenet.mol.v1 example.txt

O vocoder wavenet fornece discurso de alta qualidade, mas leva tempo para gerar.

Veja mais detalhes ou modelos disponíveis via --help .

synth_wav.sh --help

Resultados de VC

expandir

Transformador e VC baseado em Tacotron2

Você pode ouvir algumas amostras na página da demonstração.

Cascade ASR+TTS como um dos sistemas de linha de base do VCC2020

O desafio de conversão de voz 2020 (VCC2020) adota o ESPNET para construir um sistema de linha de base baseado em ponta a ponta. No VCC2020, o objetivo é VC não paralelo intra/cruzado. Você pode baixar amostras convertidas do sistema de linha de base Cascade ASR+TTS aqui.

Resultados da SLU

expandir

Listamos o desempenho em várias tarefas e conjuntos de dados SLU usando a métrica relatada no documento de dados original

Tarefa	Conjunto de dados	Métrica	Resultado	Modelo pré-treinado
Classificação de intenções	Slurp	Acc	86.3	link
Classificação de intenções	Fsc	Acc	99.6	link
Classificação de intenções	Conjunto de alto -falantes fSC não vistos	Acc	98.6	link
Classificação de intenções	Conjunto de enunciado invisível do FSC	Acc	86.4	link
Classificação de intenções	Conjunto de alto -falantes do FSC Challenge	Acc	97.5	link
Classificação de intenções	Conjunto de enunciado do desafio do FSC	Acc	78.5	link
Classificação de intenções	Snips	F1	91.7	link
Classificação de intenções	Grabo (NL)	Acc	97.2	link
Classificação de intenções	Mapa gato slu (zn)	Acc	78.9	link
Classificação de intenções	Comandos de fala do Google	Acc	98.4	link
Recheio de slot	Slurp	SLU-F1	71.9	link
Classificação da Lei do Diálogo	Quadro -chave	Acc	67.5	link
Classificação da Lei do Diálogo	JDCINAL (JP)	Acc	67.4	link
Reconhecimento de emoção	Iemocap	Acc	69.4	link
Reconhecimento de emoção	swbd_sentiment	Macro F1	61.4	link
Reconhecimento de emoção	Slue_voxceleb	Macro F1	44.0	link

Se você deseja verificar os resultados das outras receitas, verifique egs2/<name_of_recipe>/asr1/RESULTS.md .

Demoção de segmentação do CTC

ESPNET1

A segmentação do CTC determina segmentos de enunciado nos arquivos de áudio. Os segmentos de expressão alinhados constituem os rótulos dos conjuntos de dados de fala.

Como uma demonstração, alinhamos o início e o fim dos enunciados no arquivo de áudio ctc_align_test.wav , usando o exemplo de script utils/asr_align_wav.sh . Para preparação, configure um diretório de dados:

 cd egs/tedlium2/align1/
# data directory
align_dir=data/demo
mkdir -p ${align_dir}
# wav file
base=ctc_align_test
wav=../../../test_utils/ ${base} .wav
# recipe files
echo " batchsize: 0 " > ${align_dir} /align.yaml

cat << EOF > ${align_dir} /utt_text
${base} THE SALE OF THE HOTELS
${base} IS PART OF HOLIDAY'S STRATEGY
${base} TO SELL OFF ASSETS
${base} AND CONCENTRATE
${base} ON PROPERTY MANAGEMENT
EOF

Aqui, utt_text é o arquivo que contém a lista de enunciados. Escolha um modelo ASR pré-treinado que inclua uma camada CTC para encontrar segmentos de expressão:

 # pre-trained ASR model
model=wsj.transformer_small.v1
mkdir ./conf && cp ../../wsj/asr1/conf/no_preprocess.yaml ./conf

../../../utils/asr_align_wav.sh 
    --models ${model} 
    --align_dir ${align_dir} 
    --align_config ${align_dir} /align.yaml 
    ${wav} ${align_dir} /utt_text

Os segmentos são gravados para aligned_segments como uma lista de nomes de arquivos/enunciados, o final dos tempos de início e término em segundos e uma pontuação de confiança. A pontuação da confiança é uma probabilidade no espaço de toras que indica quão bem a expressão foi alinhada. Se necessário, remova más declarações:

min_confidence_score=-5
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' ${align_dir} /aligned_segments

O script de demonstração utils/ctc_align_wav.sh usa um modelo ASR já pré-treinado (consulte a lista acima para obter mais modelos). Recomenda-se usar modelos com codificadores baseados em RNN (como o BLSTMP) para alinhar grandes arquivos de áudio; em vez de usar modelos de transformadores com alto consumo de memória em dados de áudio mais longos. A taxa de amostragem do áudio deve ser consistente com a dos dados usados no treinamento; Ajuste com sox se necessário. Uma receita de exemplo completa está em egs/tedlium2/align1/ .

ESPNET2

A segmentação do CTC determina segmentos de enunciado nos arquivos de áudio. Os segmentos de expressão alinhados constituem os rótulos dos conjuntos de dados de fala.

Como demonstração, alinhamos o início e o fim dos enunciados no arquivo de áudio ctc_align_test.wav . Isso pode ser feito diretamente na linha de comando python ou usando o script espnet2/bin/asr_align.py .

Na interface da linha de comando python:

 # load a model with character tokens
from espnet_model_zoo . downloader import ModelDownloader
d = ModelDownloader ( cachedir = "./modelcache" )
wsjmodel = d . download_and_unpack ( "kamo-naoyuki/wsj" )
# load the example file included in the ESPnet repository
import soundfile
speech , rate = soundfile . read ( "./test_utils/ctc_align_test.wav" )
# CTC segmentation
from espnet2 . bin . asr_align import CTCSegmentation
aligner = CTCSegmentation ( ** wsjmodel , fs = rate )
text = """
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE ON PROPERTY MANAGEMENT
"""
segments = aligner ( speech , text )
print ( segments )
# utt1 utt 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 utt 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 utt 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 utt 4.20 6.10 -0.4899 AND CONCENTRATE ON PROPERTY MANAGEMENT

O alinhamento também funciona com fragmentos do texto. Para isso, defina a opção gratis_blank que permite pular seções de áudio não relacionadas sem penalidade. Também é possível omitir os nomes de enunciado no início de cada linha, definindo kaldi_style_text como false.

 aligner . set_config ( gratis_blank = True , kaldi_style_text = False )
text = [ "SALE OF THE HOTELS" , "PROPERTY MANAGEMENT" ]
segments = aligner ( speech , text )
print ( segments )
# utt_0000 utt 0.37 1.72 -2.0651 SALE OF THE HOTELS
# utt_0001 utt 4.70 6.10 -5.0566 PROPERTY MANAGEMENT

O script espnet2/bin/asr_align.py usa uma interface semelhante. Para alinhar as enunciados:

 # ASR model and config files from pre-trained model (e.g., from cachedir):
asr_config= < path-to-model > /config.yaml
asr_model= < path-to-model > /valid. * best.pth
# prepare the text file
wav= " test_utils/ctc_align_test.wav "
text= " test_utils/ctc_align_text.txt "
cat << EOF > ${text}
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE
utt5 ON PROPERTY MANAGEMENT
EOF
# obtain alignments:
python espnet2/bin/asr_align.py --asr_train_config ${asr_config} --asr_model_file ${asr_model} --audio ${wav} --text ${text}
# utt1 ctc_align_test 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 ctc_align_test 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 ctc_align_test 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 ctc_align_test 4.20 4.97 -0.6017 AND CONCENTRATE
# utt5 ctc_align_test 4.97 6.10 -0.3477 ON PROPERTY MANAGEMENT

A saída do script pode ser redirecionada para um arquivo segments adicionando os --output segments . Cada linha contém o nome do arquivo/enunciado, o final do enunciado e o término dos tempos em segundos e uma pontuação de confiança; Opcionalmente também o texto de expressão. A pontuação da confiança é uma probabilidade no espaço de toras que indica quão bem a expressão foi alinhada. Se necessário, remova más declarações:

min_confidence_score=-7
# here, we assume that the output was written to the file `segments`
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' segments

Consulte a documentação do módulo para obter mais informações. Recomenda-se usar modelos com codificadores baseados em RNN (como o BLSTMP) para alinhar grandes arquivos de áudio; em vez de usar modelos de transformadores que possuem um alto consumo de memória em dados de áudio mais longos. A taxa de amostragem do áudio deve ser consistente com a dos dados usados no treinamento; Ajuste com sox se necessário.

Além disso, podemos usar essa ferramenta para fornecer informações de segmentação no nível do token se prepararmos uma lista de tokens em vez da das declarações no arquivo text . Veja a discussão em #4278 (comentário).

Citações

 @inproceedings{watanabe2018espnet,
  author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson {Enrique Yalta Soplin} and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
  title={{ESPnet}: End-to-End Speech Processing Toolkit},
  year={2018},
  booktitle={Proceedings of Interspeech},
  pages={2207--2211},
  doi={10.21437/Interspeech.2018-1456},
  url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
  title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
  booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7654--7658},
  year={2020},
  organization={IEEE}
}
@inproceedings{inaguma-etal-2020-espnet,
    title = "{ESP}net-{ST}: All-in-One Speech Translation Toolkit",
    author = "Inaguma, Hirofumi  and
      Kiyono, Shun  and
      Duh, Kevin  and
      Karita, Shigeki  and
      Yalta, Nelson  and
      Hayashi, Tomoki  and
      Watanabe, Shinji",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-demos.34",
    pages = "302--311",
}
@article{hayashi2021espnet2,
  title={{ESP}net2-{TTS}: Extending the edge of {TTS} research},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Yoshimura, Takenori and Wu, Peter and Shi, Jiatong and Saeki, Takaaki and Ju, Yooncheol and Yasuda, Yusuke and Takamichi, Shinnosuke and Watanabe, Shinji},
  journal={arXiv preprint arXiv:2110.07840},
  year={2021}
}
@inproceedings{li2020espnet,
  title={{ESPnet-SE}: End-to-End Speech Enhancement and Separation Toolkit Designed for {ASR} Integration},
  author={Chenda Li and Jing Shi and Wangyou Zhang and Aswin Shanmugam Subramanian and Xuankai Chang and Naoyuki Kamo and Moto Hira and Tomoki Hayashi and Christoph Boeddeker and Zhuo Chen and Shinji Watanabe},
  booktitle={Proceedings of IEEE Spoken Language Technology Workshop (SLT)},
  pages={785--792},
  year={2021},
  organization={IEEE},
}
@inproceedings{arora2021espnet,
  title={{ESPnet-SLU}: Advancing Spoken Language Understanding through ESPnet},
  author={Arora, Siddhant and Dalmia, Siddharth and Denisov, Pavel and Chang, Xuankai and Ueda, Yushi and Peng, Yifan and Zhang, Yuekai and Kumar, Sujay and Ganesan, Karthik and Yan, Brian and others},
  booktitle={ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7167--7171},
  year={2022},
  organization={IEEE}
}
@inproceedings{shi2022muskits,
  author={Shi, Jiatong and Guo, Shuai and Qian, Tao and Huo, Nan and Hayashi, Tomoki and Wu, Yuning and Xu, Frank and Chang, Xuankai and Li, Huazhe and Wu, Peter and Watanabe, Shinji and Jin, Qin},
  title={{Muskits}: an End-to-End Music Processing Toolkit for Singing Voice Synthesis},
  year={2022},
  booktitle={Proceedings of Interspeech},
  pages={4277-4281},
  url={https://www.isca-speech.org/archive/pdfs/interspeech_2022/shi22d_interspeech.pdf}
}
@inproceedings{lu22c_interspeech,
  author={Yen-Ju Lu and Xuankai Chang and Chenda Li and Wangyou Zhang and Samuele Cornell and Zhaoheng Ni and Yoshiki Masuyama and Brian Yan and Robin Scheibler and Zhong-Qiu Wang and Yu Tsao and Yanmin Qian and Shinji Watanabe},
  title={{ESPnet-SE++: Speech Enhancement for Robust Speech Recognition, Translation, and Understanding}},
  year=2022,
  booktitle={Proc. Interspeech 2022},
  pages={5458--5462},
}
@inproceedings{gao2023euro,
  title={{EURO: ESP}net unsupervised {ASR} open-source toolkit},
  author={Gao, Dongji and Shi, Jiatong and Chuang, Shun-Po and Garcia, Leibny Paola and Lee, Hung-yi and Watanabe, Shinji and Khudanpur, Sanjeev},
  booktitle={ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={1--5},
  year={2023},
  organization={IEEE}
}
@inproceedings{peng2023reproducing,
  title={Reproducing {W}hisper-style training using an open-source toolkit and publicly available data},
  author={Peng, Yifan and Tian, Jinchuan and Yan, Brian and Berrebbi, Dan and Chang, Xuankai and Li, Xinjian and Shi, Jiatong and Arora, Siddhant and Chen, William and Sharma, Roshan and others},
  booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
  pages={1--8},
  year={2023},
  organization={IEEE}
}
@inproceedings{sharma2023espnet,
  title={ESPnet-{SUMM}: Introducing a novel large dataset, toolkit, and a cross-corpora evaluation of speech summarization systems},
  author={Sharma, Roshan and Chen, William and Kano, Takatomo and Sharma, Ruchira and Arora, Siddhant and Watanabe, Shinji and Ogawa, Atsunori and Delcroix, Marc and Singh, Rita and Raj, Bhiksha},
  booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
  pages={1--8},
  year={2023},
  organization={IEEE}
}
@article{jung2024espnet,
  title={{ESPnet-SPK}: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models},
  author={Jung, Jee-weon and Zhang, Wangyou and Shi, Jiatong and Aldeneh, Zakaria and Higuchi, Takuya and Theobald, Barry-John and Abdelaziz, Ahmed Hussen and Watanabe, Shinji},
  journal={Proc. Interspeech 2024},
  year={2024}
}
@inproceedings{yan-etal-2023-espnet,
    title = "{ESP}net-{ST}-v2: Multipurpose Spoken Language Translation Toolkit",
    author = "Yan, Brian  and
      Shi, Jiatong  and
      Tang, Yun  and
      Inaguma, Hirofumi  and
      Peng, Yifan  and
      Dalmia, Siddharth  and
      Pol{'a}k, Peter  and
      Fernandes, Patrick  and
      Berrebbi, Dan  and
      Hayashi, Tomoki  and
      Zhang, Xiaohui  and
      Ni, Zhaoheng  and
      Hira, Moto  and
      Maiti, Soumi  and
      Pino, Juan  and
      Watanabe, Shinji",
    booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)",
    year = "2023",
    publisher = "Association for Computational Linguistics",
    pages = "400--411",
}

Expandir

Informações adicionais

Versão version 202409
Tipo Outro código-fonte
Data da Última Atualização 2025-02-02
tamanho 23.14MB
Vindo de Github

Aplicativos Relacionados

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
waymo open dataset

Outro código-fonte

December 2023 Update
SmartTube

Outro código-fonte

24.71 Stable
Sunamu

Outro código-fonte

Release 2.2.0
waymo open dataset

Outro código-fonte

December 2023 Update
wp functions

Outras categorias

1.0.0
termwind

Outras categorias

v2.3.0

Informações Relacionadas Todos