DOCs | Exemplo | Exemplo (ESPNET2) | Docker | Caderno
O ESPNET é um kit de ferramentas de processamento de fala de ponta a ponta que abrange o reconhecimento de fala de ponta a ponta, o texto a fala, a tradução da fala, o aprimoramento da fala, a diarização do alto-falante, o entendimento da linguagem falada e assim por diante. O ESPNET usa o Pytorch como um mecanismo de aprendizado profundo e também segue o processamento de dados do estilo Kaldi, extração/formato de recurso e receitas para fornecer uma configuração completa para vários experimentos de processamento de fala.
ASR
(WSJ, Switchboard, CHIME-4/5, Librispeech, TED, CSJ, AMI, Hkust, Voxforge, Reverb, Gigaspeech, etc.)TTS
de maneira semelhante à receita ASR (LJSpeech, Libritts, M-Aailabs, etc.)ST
(Espanhol Fisher-CallHome, Libri-Trans, IWSLT'18, How2, Must-C, Mboshi-French, etc.)MT
(IWSLT'14, IWSLT'16, as receitas acima do ST etc.)SLU
(Catslu-maps, FSC, Grabo, Iemocap, JDCinal, Snips, Slurp, SWBD-DA, etc.)SE/SS
(DNS-IS2020, Librimix, SMS-WSJ, VCTK-NOISYRERB, WHAM!, WHAMR!, WSJ-2MIX, etc.)Consulte a página do tutorial para obter uma documentação completa.
frontend
para s3prl
frontend_conf
no nome correspondente.Demonstração
Demonstração
Para treinar o vocoder neural, verifique os seguintes repositórios:
Demonstração
Veja ESPNET2.
Se você pretende fazer experimentos completos, incluindo treinamento da DNN, consulte a instalação.
Se você só precisa do módulo Python apenas:
# We recommend you install PyTorch before installing espnet following https://pytorch.org/get-started/locally/
pip install espnet
# To install the latest
# pip install git+https://github.com/espnet/espnet
# To install additional packages
# pip install "espnet[all]"
Se você usa o ESPNET1, instale a corrente e a Cupy.
pip install chainer==6.0.0 cupy==6.0.0 # [Option]
Pode ser necessário instalar alguns pacotes, dependendo de cada tarefa. Preparamos vários scripts de instalação em ferramentas/instaladores.
(ESPNET2) Uma vez instalado, execute wandb login
e defina --use_wandb true
para ativar o rastreamento de execuções usando W&B.
Vá para o Docker/ e siga as instruções.
Obrigado por reservar um tempo para a ESPNET! Quaisquer contribuições para a ESPNET são bem -vindas e sinta -se à vontade para fazer perguntas ou solicitações a problemas. Se for a sua primeira contribuição da ESPNET, siga o guia de contribuição.
Listamos a taxa de erro do caractere (CER) e a taxa de erro de palavra (WER) das principais tarefas do ASR.
Tarefa | Cer (%) | Wer (%) | Modelo pré-treinado |
---|---|---|---|
Aishell dev/teste | 4.6/5.1 | N / D | link |
ESPNET2 AISHELL DEV/TEST | 4.1/4.4 | N / D | link |
Dev/teste de voz comum | 1.7/1.8 | 2.2/2.3 | link |
CSJ EVAL1/EVAL2/EVAL3 | 5.7/3.8/4.2 | N / D | link |
ESPNET2 CSJ EVAL1/EVAL2/EVAL3 | 4.5/3.3/3.6 | N / D | link |
ESPNET2 GIGASPEECH DEV/TEST | N / D | 10.6/10.5 | link |
Hkust dev | 23.5 | N / D | link |
ESPNET2 Hkust Dev | 21.2 | N / D | link |
Librispeech dev_clean/dev_other/test_clean/test_other | N / D | 1.9/4.9/2.1/4.9 | link |
ESPNET2 Librispeech dev_clean/dev_other/test_clean/test_other | 0,6/1,5/0.6/1.4 | 1.7/3.4/1.8/3.6 | link |
Switchboard (EVAL2000) CALHM/SWBD | N / D | 14.0/6.8 | link |
Quadro de comutação ESPNET2 (EVAL2000) CALHM/SWBD | N / D | 13.4/7.3 | link |
Tedlium2 dev/teste | N / D | 8.6/7.2 | link |
ESPNET2 Tedlium2 dev/teste | N / D | 7.3/7.1 | link |
Tedlium3 dev/teste | N / D | 9.6/7.6 | link |
WSJ Dev93/Eval92 | 3.2/2.1 | 7.0/4.7 | N / D |
ESPNET2 WSJ Dev93/Eval92 | 1.1/0.8 | 2.8/1.8 | link |
Observe que o desempenho das tarefas CSJ, HKUST e Librispeech foi significativamente aprimorado usando a ampla rede (#Units = 1024) e as grandes unidades de subglema, se necessário, relatadas pelo RWTH.
Se você deseja verificar os resultados das outras receitas, verifique egs/<name_of_recipe>/asr1/RESULTS.md
.
Você pode reconhecer o discurso em um arquivo WAV usando modelos pré-treinados. Vá para um diretório de receitas e execute utils/recog_wav.sh
da seguinte forma:
# go to the recipe directory and source path of espnet tools
cd egs/tedlium2/asr1 && . ./path.sh
# let's recognize speech!
recog_wav.sh --models tedlium2.transformer.v1 example.wav
onde example.wav
é um arquivo WAV a ser reconhecido. A taxa de amostragem deve ser consistente com a dos dados usados no treinamento.
Os modelos pré-treinados disponíveis no script de demonstração estão listados abaixo.
Modelo | Notas |
---|---|
tedlium2.rnn.v1 | Decodificação de streaming com base no VAD baseado em CTC |
tedlium2.rnn.v2 | Decodificação de streaming com base no VAD baseado em CTC (decodificação em lote) |
Tedlium2.Transformer.v1 | Transformador de atenção da CTC conjunto treinado no Tedlium 2 |
Tedlium3.Transformer.v1 | Transformador de atenção de CTC conjunta treinada no Tedlium 3 |
Librispeech.Transformer.v1 | Transformador de atenção de CTC conjunta treinada no Libresepech |
Commonvoice.Transformer.v1 | Transformador de atenção de CTC conjunto treinado em CommonVoice |
csj.transformer.v1 | Transformador de atenção de CTC conjunto treinado em CSJ |
csj.rnn.v1 | ATENÇÃO CONJUNTO CTC VGGBLSTM Treinado no CSJ |
Listamos os resultados de três modelos diferentes no WSJ0-2MIX, que é o conjunto de dados de referência mais amplamente utilizado para separação de fala.
Modelo | Stoi | Sar | Sdr | SENHOR |
---|---|---|---|---|
Mascaramento tf | 0,89 | 11.40 | 10.24 | 18.04 |
Conv-Tasnet | 0,95 | 16.62 | 15.94 | 25.90 |
DPRNN-TASNET | 0,96 | 18.82 | 18.29 | 28.92 |
É baseado no ESPNET2. Modelos pré-treinados estão disponíveis para as tarefas de aprimoramento e separação de fala.
Demonsionamentos para streaming de separação de fala:
Listamos 4 gramas de Bleu das principais tarefas de ST.
Tarefa | Bleu | Modelo pré-treinado |
---|---|---|
Fisher-callhome Spanish Fisher_test (es-> en) | 51.03 | link |
Fisher-CallHome Espanhol calhome_evltest (es-> en) | 20.44 | link |
Teste de Libri-Trans (en-> fr) | 16.70 | link |
How2 dev5 (en-> pt) | 45.68 | link |
Must-C tst-Common (en-> de) | 22.91 | link |
Mboshi-French Dev (fr-> mboshi) | 6.18 | N / D |
Tarefa | Bleu | Modelo pré-treinado |
---|---|---|
Fisher-callhome Spanish Fisher_test (es-> en) | 42.16 | N / D |
Fisher-CallHome Espanhol calhome_evltest (es-> en) | 19.82 | N / D |
Teste de Libri-Trans (en-> fr) | 16.96 | N / D |
How2 dev5 (en-> pt) | 44.90 | N / D |
Must-C tst-Common (en-> de) | 23.65 | N / D |
Se você deseja verificar os resultados das outras receitas, verifique egs/<name_of_recipe>/st1/RESULTS.md
.
( NOVO! ) Fizemos uma nova demonstração em tempo real do E2E-ST + TTS no Google Colab. Acesse o notebook do botão a seguir e aproveite a tradução em tempo real da fala para fala!
Você pode traduzir a fala em um arquivo WAV usando modelos pré-treinados. Vá para um diretório de receitas e execute utils/translate_wav.sh
da seguinte forma:
# Go to recipe directory and source path of espnet tools
cd egs/fisher_callhome_spanish/st1 && . ./path.sh
# download example wav file
wget -O - https://github.com/espnet/espnet/files/4100928/test.wav.tar.gz | tar zxvf -
# let's translate speech!
translate_wav.sh --models fisher_callhome_spanish.transformer.v1.es-en test.wav
onde test.wav
é um arquivo WAV a ser traduzido. A taxa de amostragem deve ser consistente com a dos dados usados no treinamento.
Os modelos pré-treinados disponíveis no script de demonstração estão listados como abaixo.
Modelo | Notas |
---|---|
Fisher_calhome_spanish.transformer.v1 | Transformer-st treinou em Fisher-CallHome Spanis |
Tarefa | Bleu | Modelo pré-treinado |
---|---|---|
Fisher-callhome Spanish Fisher_test (es-> en) | 61.45 | link |
Fisher-CallHome Espanhol calhome_evltest (es-> en) | 29.86 | link |
Teste de Libri-Trans (en-> fr) | 18.09 | link |
How2 dev5 (en-> pt) | 58.61 | link |
Must-C tst-Common (en-> de) | 27.63 | link |
IWSLT'14 TEST2014 (EN-> DE) | 24.70 | link |
IWSLT'14 TEST2014 (DE-EN) | 29.22 | link |
IWSLT'14 TEST2014 (DE-EN) | 32.2 | link |
IWSLT'16 TEST2014 (EN-> DE) | 24.05 | link |
IWSLT'16 TEST2014 (DE-EN) | 29.13 | link |
Você pode ouvir as amostras geradas no seguinte URL.
Observe que, na geração, usamos Griffin-LIM (
wav/
) e WAVANGAGEM PARALLEGEM (wav_pwg/
).
Você pode baixar modelos pré-treinados via espnet_model_zoo
.
Você pode baixar vocoders pré-treinados via kan-bayashi/ParallelWaveGAN
.
Nota: Estamos nos movendo no desenvolvimento baseado em ESPNET2 para TTS. Verifique os resultados mais recentes nos resultados do ESPNET2 acima.
Você pode ouvir nossas amostras na Demo HP ESPNET-TTS-SAMPLES. Aqui listamos alguns notáveis:
Você pode baixar todos os modelos pré-treinados e amostras geradas:
Observe que, nas amostras geradas, usamos os seguintes vocoders: Griffin-Lim ( GL ), vocoder wavenet ( Wavenet ), onda paralelo ( Parallelwavegan ) e Melgan ( Melgan ). Os vocoders neurais são baseados nos seguintes repositórios.
Se você deseja construir seu próprio vocoder neural, verifique os repositórios acima. Kan-Bayashi/Parallelwavegan fornece o manual sobre como decodificar os recursos do modelo ESPNET-TTS com vocoders neurais. Por favor, verifique.
Aqui listamos todos os vocoders neurais pré-treinados. Faça o download e aproveite a geração de discurso de alta qualidade!
Modelo Link | Lang | FS [Hz] | Alcance MEL [Hz] | FFT / Shift / Win [PT] | Tipo de modelo |
---|---|---|---|---|---|
ljspeech.wavenet.softmax.ns.v1 | En | 22.05k | Nenhum | 1024 /256 / nenhum | Softmax wavenet |
ljspeech.wavenet.mol.v1 | En | 22.05k | Nenhum | 1024 /256 / nenhum | Mol Wavenet |
ljspeech.parallel_wavegan.v1 | En | 22.05k | Nenhum | 1024 /256 / nenhum | Gangan de onda paralelo |
ljspeech.wavenet.mol.v2 | En | 22.05k | 80-7600 | 1024 /256 / nenhum | Mol Wavenet |
ljspeech.parallel_wavegan.v2 | En | 22.05k | 80-7600 | 1024 /256 / nenhum | Gangan de onda paralelo |
ljspeech.melgan.v1 | En | 22.05k | 80-7600 | 1024 /256 / nenhum | Melgan |
ljspeech.melgan.v3 | En | 22.05k | 80-7600 | 1024 /256 / nenhum | Melgan |
libritts.wavenet.mol.v1 | En | 24k | Nenhum | 1024 /256 / nenhum | Mol Wavenet |
jsut.wavenet.mol.v1 | JP | 24k | 80-7600 | 2048 /300 /1200 | Mol Wavenet |
jsut.parallel_wavegan.v1 | JP | 24k | 80-7600 | 2048 /300 /1200 | Gangan de onda paralelo |
csmsc.wavenet.mol.v1 | Zh | 24k | 80-7600 | 2048 /300 /1200 | Mol Wavenet |
csmsc.parallel_wavegan.v1 | Zh | 24k | 80-7600 | 2048 /300 /1200 | Gangan de onda paralelo |
Se você deseja usar os vocoders pré-treinados acima, corresponda exatamente à configuração de recursos com eles.
Você pode experimentar a demonstração em tempo real no Google Colab. Acesse o notebook do botão a seguir e aproveite a síntese em tempo real!
Os modelos de inglês, japonês e mandarim estão disponíveis na demonstração.
Nota: Estamos nos movendo no desenvolvimento baseado em ESPNET2 para TTS. Por favor, verifique a demonstração mais recente na demonstração do ESPNET2 acima.
Você pode experimentar a demonstração em tempo real no Google Colab. Acesse o notebook a partir do botão a seguir e aproveite a síntese em tempo real.
Também fornecemos um script de shell para executar a síntese. Vá para um diretório de receitas e execute utils/synth_wav.sh
da seguinte forma:
# Go to recipe directory and source path of espnet tools
cd egs/ljspeech/tts1 && . ./path.sh
# We use an upper-case char sequence for the default model.
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example.txt
# let's synthesize speech!
synth_wav.sh example.txt
# Also, you can use multiple sentences
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example_multi.txt
echo " TEXT TO SPEECH IS A TECHNIQUE TO CONVERT TEXT INTO SPEECH. " >> example_multi.txt
synth_wav.sh example_multi.txt
Você pode alterar o modelo pré-treinado da seguinte maneira:
synth_wav.sh --models ljspeech.fastspeech.v1 example.txt
A síntese da forma de onda é realizada com o algoritmo Griffin-Lim e os vocoders neurais (Wavenet e Parallelwavegan). Você pode alterar o modelo de vocoder pré-treinado da seguinte forma:
synth_wav.sh --vocoder_models ljspeech.wavenet.mol.v1 example.txt
O vocoder wavenet fornece discurso de alta qualidade, mas leva tempo para gerar.
Veja mais detalhes ou modelos disponíveis via --help
.
synth_wav.sh --help
Você pode ouvir algumas amostras na página da demonstração.
O desafio de conversão de voz 2020 (VCC2020) adota o ESPNET para construir um sistema de linha de base baseado em ponta a ponta. No VCC2020, o objetivo é VC não paralelo intra/cruzado. Você pode baixar amostras convertidas do sistema de linha de base Cascade ASR+TTS aqui.
Listamos o desempenho em várias tarefas e conjuntos de dados SLU usando a métrica relatada no documento de dados original
Tarefa | Conjunto de dados | Métrica | Resultado | Modelo pré-treinado |
---|---|---|---|---|
Classificação de intenções | Slurp | Acc | 86.3 | link |
Classificação de intenções | Fsc | Acc | 99.6 | link |
Classificação de intenções | Conjunto de alto -falantes fSC não vistos | Acc | 98.6 | link |
Classificação de intenções | Conjunto de enunciado invisível do FSC | Acc | 86.4 | link |
Classificação de intenções | Conjunto de alto -falantes do FSC Challenge | Acc | 97.5 | link |
Classificação de intenções | Conjunto de enunciado do desafio do FSC | Acc | 78.5 | link |
Classificação de intenções | Snips | F1 | 91.7 | link |
Classificação de intenções | Grabo (NL) | Acc | 97.2 | link |
Classificação de intenções | Mapa gato slu (zn) | Acc | 78.9 | link |
Classificação de intenções | Comandos de fala do Google | Acc | 98.4 | link |
Recheio de slot | Slurp | SLU-F1 | 71.9 | link |
Classificação da Lei do Diálogo | Quadro -chave | Acc | 67.5 | link |
Classificação da Lei do Diálogo | JDCINAL (JP) | Acc | 67.4 | link |
Reconhecimento de emoção | Iemocap | Acc | 69.4 | link |
Reconhecimento de emoção | swbd_sentiment | Macro F1 | 61.4 | link |
Reconhecimento de emoção | Slue_voxceleb | Macro F1 | 44.0 | link |
Se você deseja verificar os resultados das outras receitas, verifique egs2/<name_of_recipe>/asr1/RESULTS.md
.
A segmentação do CTC determina segmentos de enunciado nos arquivos de áudio. Os segmentos de expressão alinhados constituem os rótulos dos conjuntos de dados de fala.
Como uma demonstração, alinhamos o início e o fim dos enunciados no arquivo de áudio ctc_align_test.wav
, usando o exemplo de script utils/asr_align_wav.sh
. Para preparação, configure um diretório de dados:
cd egs/tedlium2/align1/
# data directory
align_dir=data/demo
mkdir -p ${align_dir}
# wav file
base=ctc_align_test
wav=../../../test_utils/ ${base} .wav
# recipe files
echo " batchsize: 0 " > ${align_dir} /align.yaml
cat << EOF > ${align_dir} /utt_text
${base} THE SALE OF THE HOTELS
${base} IS PART OF HOLIDAY'S STRATEGY
${base} TO SELL OFF ASSETS
${base} AND CONCENTRATE
${base} ON PROPERTY MANAGEMENT
EOF
Aqui, utt_text
é o arquivo que contém a lista de enunciados. Escolha um modelo ASR pré-treinado que inclua uma camada CTC para encontrar segmentos de expressão:
# pre-trained ASR model
model=wsj.transformer_small.v1
mkdir ./conf && cp ../../wsj/asr1/conf/no_preprocess.yaml ./conf
../../../utils/asr_align_wav.sh
--models ${model}
--align_dir ${align_dir}
--align_config ${align_dir} /align.yaml
${wav} ${align_dir} /utt_text
Os segmentos são gravados para aligned_segments
como uma lista de nomes de arquivos/enunciados, o final dos tempos de início e término em segundos e uma pontuação de confiança. A pontuação da confiança é uma probabilidade no espaço de toras que indica quão bem a expressão foi alinhada. Se necessário, remova más declarações:
min_confidence_score=-5
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' ${align_dir} /aligned_segments
O script de demonstração utils/ctc_align_wav.sh
usa um modelo ASR já pré-treinado (consulte a lista acima para obter mais modelos). Recomenda-se usar modelos com codificadores baseados em RNN (como o BLSTMP) para alinhar grandes arquivos de áudio; em vez de usar modelos de transformadores com alto consumo de memória em dados de áudio mais longos. A taxa de amostragem do áudio deve ser consistente com a dos dados usados no treinamento; Ajuste com sox
se necessário. Uma receita de exemplo completa está em egs/tedlium2/align1/
.
A segmentação do CTC determina segmentos de enunciado nos arquivos de áudio. Os segmentos de expressão alinhados constituem os rótulos dos conjuntos de dados de fala.
Como demonstração, alinhamos o início e o fim dos enunciados no arquivo de áudio ctc_align_test.wav
. Isso pode ser feito diretamente na linha de comando python ou usando o script espnet2/bin/asr_align.py
.
Na interface da linha de comando python:
# load a model with character tokens
from espnet_model_zoo . downloader import ModelDownloader
d = ModelDownloader ( cachedir = "./modelcache" )
wsjmodel = d . download_and_unpack ( "kamo-naoyuki/wsj" )
# load the example file included in the ESPnet repository
import soundfile
speech , rate = soundfile . read ( "./test_utils/ctc_align_test.wav" )
# CTC segmentation
from espnet2 . bin . asr_align import CTCSegmentation
aligner = CTCSegmentation ( ** wsjmodel , fs = rate )
text = """
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE ON PROPERTY MANAGEMENT
"""
segments = aligner ( speech , text )
print ( segments )
# utt1 utt 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 utt 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 utt 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 utt 4.20 6.10 -0.4899 AND CONCENTRATE ON PROPERTY MANAGEMENT
O alinhamento também funciona com fragmentos do texto. Para isso, defina a opção gratis_blank
que permite pular seções de áudio não relacionadas sem penalidade. Também é possível omitir os nomes de enunciado no início de cada linha, definindo kaldi_style_text
como false.
aligner . set_config ( gratis_blank = True , kaldi_style_text = False )
text = [ "SALE OF THE HOTELS" , "PROPERTY MANAGEMENT" ]
segments = aligner ( speech , text )
print ( segments )
# utt_0000 utt 0.37 1.72 -2.0651 SALE OF THE HOTELS
# utt_0001 utt 4.70 6.10 -5.0566 PROPERTY MANAGEMENT
O script espnet2/bin/asr_align.py
usa uma interface semelhante. Para alinhar as enunciados:
# ASR model and config files from pre-trained model (e.g., from cachedir):
asr_config= < path-to-model > /config.yaml
asr_model= < path-to-model > /valid. * best.pth
# prepare the text file
wav= " test_utils/ctc_align_test.wav "
text= " test_utils/ctc_align_text.txt "
cat << EOF > ${text}
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE
utt5 ON PROPERTY MANAGEMENT
EOF
# obtain alignments:
python espnet2/bin/asr_align.py --asr_train_config ${asr_config} --asr_model_file ${asr_model} --audio ${wav} --text ${text}
# utt1 ctc_align_test 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 ctc_align_test 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 ctc_align_test 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 ctc_align_test 4.20 4.97 -0.6017 AND CONCENTRATE
# utt5 ctc_align_test 4.97 6.10 -0.3477 ON PROPERTY MANAGEMENT
A saída do script pode ser redirecionada para um arquivo segments
adicionando os --output segments
. Cada linha contém o nome do arquivo/enunciado, o final do enunciado e o término dos tempos em segundos e uma pontuação de confiança; Opcionalmente também o texto de expressão. A pontuação da confiança é uma probabilidade no espaço de toras que indica quão bem a expressão foi alinhada. Se necessário, remova más declarações:
min_confidence_score=-7
# here, we assume that the output was written to the file `segments`
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' segments
Consulte a documentação do módulo para obter mais informações. Recomenda-se usar modelos com codificadores baseados em RNN (como o BLSTMP) para alinhar grandes arquivos de áudio; em vez de usar modelos de transformadores que possuem um alto consumo de memória em dados de áudio mais longos. A taxa de amostragem do áudio deve ser consistente com a dos dados usados no treinamento; Ajuste com sox
se necessário.
Além disso, podemos usar essa ferramenta para fornecer informações de segmentação no nível do token se prepararmos uma lista de tokens em vez da das declarações no arquivo text
. Veja a discussão em #4278 (comentário).
@inproceedings{watanabe2018espnet,
author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson {Enrique Yalta Soplin} and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
title={{ESPnet}: End-to-End Speech Processing Toolkit},
year={2018},
booktitle={Proceedings of Interspeech},
pages={2207--2211},
doi={10.21437/Interspeech.2018-1456},
url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={7654--7658},
year={2020},
organization={IEEE}
}
@inproceedings{inaguma-etal-2020-espnet,
title = "{ESP}net-{ST}: All-in-One Speech Translation Toolkit",
author = "Inaguma, Hirofumi and
Kiyono, Shun and
Duh, Kevin and
Karita, Shigeki and
Yalta, Nelson and
Hayashi, Tomoki and
Watanabe, Shinji",
booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.acl-demos.34",
pages = "302--311",
}
@article{hayashi2021espnet2,
title={{ESP}net2-{TTS}: Extending the edge of {TTS} research},
author={Hayashi, Tomoki and Yamamoto, Ryuichi and Yoshimura, Takenori and Wu, Peter and Shi, Jiatong and Saeki, Takaaki and Ju, Yooncheol and Yasuda, Yusuke and Takamichi, Shinnosuke and Watanabe, Shinji},
journal={arXiv preprint arXiv:2110.07840},
year={2021}
}
@inproceedings{li2020espnet,
title={{ESPnet-SE}: End-to-End Speech Enhancement and Separation Toolkit Designed for {ASR} Integration},
author={Chenda Li and Jing Shi and Wangyou Zhang and Aswin Shanmugam Subramanian and Xuankai Chang and Naoyuki Kamo and Moto Hira and Tomoki Hayashi and Christoph Boeddeker and Zhuo Chen and Shinji Watanabe},
booktitle={Proceedings of IEEE Spoken Language Technology Workshop (SLT)},
pages={785--792},
year={2021},
organization={IEEE},
}
@inproceedings{arora2021espnet,
title={{ESPnet-SLU}: Advancing Spoken Language Understanding through ESPnet},
author={Arora, Siddhant and Dalmia, Siddharth and Denisov, Pavel and Chang, Xuankai and Ueda, Yushi and Peng, Yifan and Zhang, Yuekai and Kumar, Sujay and Ganesan, Karthik and Yan, Brian and others},
booktitle={ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={7167--7171},
year={2022},
organization={IEEE}
}
@inproceedings{shi2022muskits,
author={Shi, Jiatong and Guo, Shuai and Qian, Tao and Huo, Nan and Hayashi, Tomoki and Wu, Yuning and Xu, Frank and Chang, Xuankai and Li, Huazhe and Wu, Peter and Watanabe, Shinji and Jin, Qin},
title={{Muskits}: an End-to-End Music Processing Toolkit for Singing Voice Synthesis},
year={2022},
booktitle={Proceedings of Interspeech},
pages={4277-4281},
url={https://www.isca-speech.org/archive/pdfs/interspeech_2022/shi22d_interspeech.pdf}
}
@inproceedings{lu22c_interspeech,
author={Yen-Ju Lu and Xuankai Chang and Chenda Li and Wangyou Zhang and Samuele Cornell and Zhaoheng Ni and Yoshiki Masuyama and Brian Yan and Robin Scheibler and Zhong-Qiu Wang and Yu Tsao and Yanmin Qian and Shinji Watanabe},
title={{ESPnet-SE++: Speech Enhancement for Robust Speech Recognition, Translation, and Understanding}},
year=2022,
booktitle={Proc. Interspeech 2022},
pages={5458--5462},
}
@inproceedings{gao2023euro,
title={{EURO: ESP}net unsupervised {ASR} open-source toolkit},
author={Gao, Dongji and Shi, Jiatong and Chuang, Shun-Po and Garcia, Leibny Paola and Lee, Hung-yi and Watanabe, Shinji and Khudanpur, Sanjeev},
booktitle={ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={1--5},
year={2023},
organization={IEEE}
}
@inproceedings{peng2023reproducing,
title={Reproducing {W}hisper-style training using an open-source toolkit and publicly available data},
author={Peng, Yifan and Tian, Jinchuan and Yan, Brian and Berrebbi, Dan and Chang, Xuankai and Li, Xinjian and Shi, Jiatong and Arora, Siddhant and Chen, William and Sharma, Roshan and others},
booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
pages={1--8},
year={2023},
organization={IEEE}
}
@inproceedings{sharma2023espnet,
title={ESPnet-{SUMM}: Introducing a novel large dataset, toolkit, and a cross-corpora evaluation of speech summarization systems},
author={Sharma, Roshan and Chen, William and Kano, Takatomo and Sharma, Ruchira and Arora, Siddhant and Watanabe, Shinji and Ogawa, Atsunori and Delcroix, Marc and Singh, Rita and Raj, Bhiksha},
booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
pages={1--8},
year={2023},
organization={IEEE}
}
@article{jung2024espnet,
title={{ESPnet-SPK}: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models},
author={Jung, Jee-weon and Zhang, Wangyou and Shi, Jiatong and Aldeneh, Zakaria and Higuchi, Takuya and Theobald, Barry-John and Abdelaziz, Ahmed Hussen and Watanabe, Shinji},
journal={Proc. Interspeech 2024},
year={2024}
}
@inproceedings{yan-etal-2023-espnet,
title = "{ESP}net-{ST}-v2: Multipurpose Spoken Language Translation Toolkit",
author = "Yan, Brian and
Shi, Jiatong and
Tang, Yun and
Inaguma, Hirofumi and
Peng, Yifan and
Dalmia, Siddharth and
Pol{'a}k, Peter and
Fernandes, Patrick and
Berrebbi, Dan and
Hayashi, Tomoki and
Zhang, Xiaohui and
Ni, Zhaoheng and
Hira, Moto and
Maiti, Soumi and
Pino, Juan and
Watanabe, Shinji",
booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)",
year = "2023",
publisher = "Association for Computational Linguistics",
pages = "400--411",
}