Docios | Ejemplo | Ejemplo (ESPNet2) | Docker | Computadora portátil
ESPNet es un conjunto de herramientas de procesamiento de voz de extremo a extremo que cubre el reconocimiento de voz de extremo a extremo, el texto a la expresión, la traducción del habla, la mejora del habla, la diario de altavoces, la comprensión del lenguaje hablado, etc. ESPNet utiliza Pytorch como motor de aprendizaje profundo y también sigue el procesamiento de datos de estilo Kaldi, la extracción/formato de características y las recetas para proporcionar una configuración completa para varios experimentos de procesamiento de voz.
ASR
(WSJ, shitderboard, Chime-4/5, Librispeech, TED, CSJ, AMI, HKUST, VOXFORGE, Reverb, Gigaspeech, etc.)TTS
de manera similar a la receta ASR (LJSPEECH, Libritts, M-Cailabs, etc.)ST
(Fisher-Calhome Spanish, Libri-Trans, IWSLT'18, How2, Must-C, MBoshi-French, etc.)MT
(IWSLT'14, IWSLT'16, las recetas de ST anteriores, etc.)SLU
(mapas CATSLU, FSC, Grabo, Iemocap, JDCinal, Snips, Slurp, SWBD-DA, etc.)SE/SS
(DNS-IS2020, Librimix, SMS-WSJ, VCTK-Noisyreverb, Wham!, Whamr!, WSJ-2Mix, etc.)Consulte la página del tutorial para obtener documentación completa.
frontend
en s3prl
frontend_conf
en el nombre correspondiente.Demostración
Demostración
Para capacitar al vocoder neural, consulte los siguientes repositorios:
Demostración
Ver ESPNET2.
Si tiene la intención de realizar experimentos completos, incluido el entrenamiento DNN, consulte la instalación.
Si solo necesita el módulo Python solamente:
# We recommend you install PyTorch before installing espnet following https://pytorch.org/get-started/locally/
pip install espnet
# To install the latest
# pip install git+https://github.com/espnet/espnet
# To install additional packages
# pip install "espnet[all]"
Si usa ESPNet1, instale Chainer y Cupy.
pip install chainer==6.0.0 cupy==6.0.0 # [Option]
Es posible que deba instalar algunos paquetes según cada tarea. Preparamos varios scripts de instalación en herramientas/instaladores.
(ESPNET2) Una vez instalado, ejecute wandb login
y establezca --use_wandb true
para habilitar las ejecuciones de seguimiento usando W&B.
Vaya a Docker/ y siga las instrucciones.
¡Gracias por tomarse el tiempo para ESPNet! Cualquier contribución a ESPNet es bienvenida y no dude en hacer cualquier pregunta o solicitud a los problemas. Si es su primera contribución de ESPNet, siga la guía de contribución.
Enumeramos la tasa de error de caracteres (CER) y la tasa de error de palabras (WER) de las principales tareas ASR.
Tarea | Cer (%) | Wer (%) | Modelo previamente capacitado |
---|---|---|---|
Aishell Dev/Test | 4.6/5.1 | N / A | enlace |
ESPNET2 Aishell Dev/Test | 4.1/4.4 | N / A | enlace |
Dev/prueba de voz común | 1.7/1.8 | 2.2/2.3 | enlace |
CSJ eval1/eval2/eval3 | 5.7/3.8/4.2 | N / A | enlace |
ESPNET2 CSJ Eval1/Eval2/Eval3 | 4.5/3.3/3.6 | N / A | enlace |
ESPNET2 GIGASPEECH DEV/TEST | N / A | 10.6/10.5 | enlace |
HKUST DEV | 23.5 | N / A | enlace |
ESPNET2 HKUST DEV | 21.2 | N / A | enlace |
Librispeech dev_clean/dev_other/test_clean/test_other | N / A | 1.9/4.9/2.1/4.9 | enlace |
ESPNET2 Librispeech dev_clean/dev_other/test_clean/test_other | 0.6/1.5/0.6/1.4 | 1.7/3.4/1.8/3.6 | enlace |
Caminete (eval2000) Callhm/SWBD | N / A | 14.0/6.8 | enlace |
ESPNET2 Switchboard (Eval2000) Callhm/SWBD | N / A | 13.4/7.3 | enlace |
Tedlium2 dev/test | N / A | 8.6/7.2 | enlace |
ESPNET2 TEDLIUM2 DEV/TEST | N / A | 7.3/7.1 | enlace |
Tedlium3 dev/test | N / A | 9.6/7.6 | enlace |
WSJ Dev93/Eval92 | 3.2/2.1 | 7.0/4.7 | N / A |
ESPNET2 WSJ Dev93/Eval92 | 1.1/0.8 | 2.8/1.8 | enlace |
Tenga en cuenta que el rendimiento de las tareas CSJ, HKUST y Librispeech mejoró significativamente utilizando la red amplia (#UNITS = 1024) y las grandes unidades de subvenciones si es necesario informar por RWTH.
Si desea verificar los resultados de las otras recetas, consulte egs/<name_of_recipe>/asr1/RESULTS.md
.
Puede reconocer el discurso en un archivo WAV utilizando modelos previamente capacitados. Vaya a un directorio de recetas y ejecute utils/recog_wav.sh
de la siguiente manera:
# go to the recipe directory and source path of espnet tools
cd egs/tedlium2/asr1 && . ./path.sh
# let's recognize speech!
recog_wav.sh --models tedlium2.transformer.v1 example.wav
donde example.wav
es un archivo WAV para ser reconocido. La tasa de muestreo debe ser consistente con la de los datos utilizados en la capacitación.
Los modelos previamente capacitados disponibles en el script de demostración se enumeran a continuación.
Modelo | Notas |
---|---|
tedlium2.rnn.v1 | Transmisión de decodificación basada en VAD basado en CTC |
tedlium2.rnn.v2 | Decodificación de transmisión basada en VAD basado en CTC (decodificación por lotes) |
tedlium2.transformer.v1 | Transformador de atención de CTC de Junta-CTC entrenado en Tedlium 2 |
tedlium3.transformer.v1 | Transformador de atención de CTC de Junta-CTC entrenado en Tedlium 3 |
librispeech.transformer.v1 | Transformador de atención del CTC Junta-CTC entrenado en Librispeech |
CommonVoice.transformer.v1 | Transformador de atención de CTC de Junta-CTC entrenado en CommonVoice |
csj.transformer.v1 | Transformador de atención conjunta-CTC entrenado en CSJ |
csj.rnn.v1 | Junta-CTC ATENCIÓN VGGBLSTM entrenado en CSJ |
Enumeramos los resultados de tres modelos diferentes en WSJ0-2MIX, que es uno del conjunto de datos de referencia más utilizado para la separación del habla.
Modelo | Stoi | Sar | DEG | SEÑOR |
---|---|---|---|---|
TF Masking | 0.89 | 11.40 | 10.24 | 18.04 |
Convicto | 0.95 | 16.62 | 15.94 | 25.90 |
Dprnn-tasnet | 0.96 | 18.82 | 18.29 | 28.92 |
Se basa en ESPNET2. Los modelos previamente capacitados están disponibles tanto para la mejora del habla como para las tareas de separación del habla.
Demoss de transmisión de separación del habla:
Enumeramos 4 gramos de las principales tareas ST.
Tarea | Bleu | Modelo previamente capacitado |
---|---|---|
Fisher-Calhome español Fisher_test (es-> en) | 51.03 | enlace |
Fisher-Calhome español Callhome_evltest (es-> en) | 20.44 | enlace |
Prueba de Libri-Trans (EN-> FR) | 16.70 | enlace |
How2 dev5 (en-> pt) | 45.68 | enlace |
Must-C TST-Common (en-> de) | 22.91 | enlace |
MBoshi-French Dev (FR-> MBoshi) | 6.18 | N / A |
Tarea | Bleu | Modelo previamente capacitado |
---|---|---|
Fisher-Calhome español Fisher_test (es-> en) | 42.16 | N / A |
Fisher-Calhome español Callhome_evltest (es-> en) | 19.82 | N / A |
Prueba de Libri-Trans (EN-> FR) | 16.96 | N / A |
How2 dev5 (en-> pt) | 44.90 | N / A |
Must-C TST-Common (en-> de) | 23.65 | N / A |
Si desea verificar los resultados de las otras recetas, consulte egs/<name_of_recipe>/st1/RESULTS.md
.
( ¡Nuevo! ) Hicimos una nueva demostración E2E-ST + TTS en tiempo real en Google Colab. ¡Acceda al cuaderno desde el siguiente botón y disfrute de la traducción en tiempo real de voz a voz!
Puede traducir el discurso en un archivo WAV utilizando modelos previamente capacitados. Vaya a un directorio de recetas y ejecute utils/translate_wav.sh
de la siguiente manera:
# Go to recipe directory and source path of espnet tools
cd egs/fisher_callhome_spanish/st1 && . ./path.sh
# download example wav file
wget -O - https://github.com/espnet/espnet/files/4100928/test.wav.tar.gz | tar zxvf -
# let's translate speech!
translate_wav.sh --models fisher_callhome_spanish.transformer.v1.es-en test.wav
donde test.wav
es un archivo wav a traducir. La tasa de muestreo debe ser consistente con la de los datos utilizados en la capacitación.
Los modelos previamente capacitados disponibles en el script de demostración se enumeran como se muestra a continuación.
Modelo | Notas |
---|---|
Fisher_Callhome_Spanish.Transformer.V1 | Transformer-St entrenado en Fisher-Calhome español es-> en |
Tarea | Bleu | Modelo previamente capacitado |
---|---|---|
Fisher-Calhome español Fisher_test (es-> en) | 61.45 | enlace |
Fisher-Calhome español Callhome_evltest (es-> en) | 29.86 | enlace |
Prueba de Libri-Trans (EN-> FR) | 18.09 | enlace |
How2 dev5 (en-> pt) | 58.61 | enlace |
Must-C TST-Common (en-> de) | 27.63 | enlace |
Iwslt'14 test2014 (en-> de) | 24.70 | enlace |
Iwslt'14 test2014 (De-> en) | 29.22 | enlace |
Iwslt'14 test2014 (De-> en) | 32.2 | enlace |
IWSLT'16 TEST2014 (EN-> DE) | 24.05 | enlace |
IWSLT'16 TEST2014 (DE-> EN) | 29.13 | enlace |
Puede escuchar las muestras generadas en la siguiente URL.
Tenga en cuenta que en la generación, usamos Griffin-Lim (
wav/
) y Wavan Paralelo (wav_pwg/
).
Puede descargar modelos previamente capacitados a través de espnet_model_zoo
.
Puede descargar vocoders previamente capacitados a través de kan-bayashi/ParallelWaveGAN
.
Nota: Nos estamos moviendo en el desarrollo basado en ESPNET2 para TTS. Verifique los últimos resultados en los resultados de ESPNet2 anteriores.
Puede escuchar nuestras muestras en demo HP ESPNET-TTS-Sample. Aquí enumeramos algunos notables:
Puede descargar todos los modelos previamente capacitados y muestras generadas:
Tenga en cuenta que en las muestras generadas, usamos los siguientes vocoders: Griffin-Lim ( GL ), Vocoder de Wavenet ( Wavenet ), Parallel Wavegan ( Parallelwavegan ) y Melgan ( Melgan ). Los vocoders neurales se basan en los siguientes repositorios.
Si desea construir su propio vocoder neural, consulte los repositorios anteriores. Kan-Bayashi/Parallelwavegan proporciona el manual sobre cómo decodificar las características del modelo ESPNET-TTS con vocoders neurales. Por favor, revise.
Aquí enumeramos todos los vocoders neurales previamente entrenados. ¡Descargue y disfrute de la generación de discursos de alta calidad!
Enlace modelo | Lang | FS [HZ] | Mel Range [Hz] | FFT / Shift / Win [PT] | Tipo de modelo |
---|---|---|---|---|---|
ljspeech.wavenet.softmax.ns.v1 | Interno | 22.05k | Ninguno | 1024 /256 / ninguno | Softmax Wavenet |
ljspeech.wavenet.mol.v1 | Interno | 22.05k | Ninguno | 1024 /256 / ninguno | Mol Wavenet |
ljspeech.parallel_wavegan.v1 | Interno | 22.05k | Ninguno | 1024 /256 / ninguno | Wavan paralelo |
ljspeech.wavenet.mol.v2 | Interno | 22.05k | 80-7600 | 1024 /256 / ninguno | Mol Wavenet |
ljspech.parallel_wavegan.v2 | Interno | 22.05k | 80-7600 | 1024 /256 / ninguno | Wavan paralelo |
ljspeech.melgan.v1 | Interno | 22.05k | 80-7600 | 1024 /256 / ninguno | Melgan |
ljspeech.melgan.v3 | Interno | 22.05k | 80-7600 | 1024 /256 / ninguno | Melgan |
libritts.wavenet.mol.v1 | Interno | 24k | Ninguno | 1024 /256 / ninguno | Mol Wavenet |
jsut.wavenet.mol.v1 | JP | 24k | 80-7600 | 2048/300/1200 | Mol Wavenet |
jsut.parallel_wavegan.v1 | JP | 24k | 80-7600 | 2048/300/1200 | Wavan paralelo |
csmsc.wavenet.mol.v1 | Zh | 24k | 80-7600 | 2048/300/1200 | Mol Wavenet |
csmsc.parallel_wavegan.v1 | Zh | 24k | 80-7600 | 2048/300/1200 | Wavan paralelo |
Si desea utilizar los vocoders previamente capacitados anteriores, coincida exactamente con la configuración de características con ellos.
Puede probar la demostración en tiempo real en Google Colab. ¡Acceda al cuaderno desde el siguiente botón y disfrute de la síntesis en tiempo real!
Los modelos ingleses, japoneses y mandarín están disponibles en la demostración.
Nota: Nos estamos moviendo en el desarrollo basado en ESPNET2 para TTS. Consulte la última demostración en la demostración de ESPNet2 anterior.
Puede probar la demostración en tiempo real en Google Colab. Acceda al cuaderno desde el siguiente botón y disfrute de la síntesis en tiempo real.
También proporcionamos un script de shell para realizar síntesis. Vaya a un directorio de recetas y ejecute utils/synth_wav.sh
de la siguiente manera:
# Go to recipe directory and source path of espnet tools
cd egs/ljspeech/tts1 && . ./path.sh
# We use an upper-case char sequence for the default model.
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example.txt
# let's synthesize speech!
synth_wav.sh example.txt
# Also, you can use multiple sentences
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example_multi.txt
echo " TEXT TO SPEECH IS A TECHNIQUE TO CONVERT TEXT INTO SPEECH. " >> example_multi.txt
synth_wav.sh example_multi.txt
Puede cambiar el modelo previamente capacitado de la siguiente manera:
synth_wav.sh --models ljspeech.fastspeech.v1 example.txt
La síntesis de la forma de onda se realiza con el algoritmo Griffin-Lim y los vocoders neurales (Wavenet y Parallelwavegan). Puede cambiar el modelo de vocoder previamente capacitado de la siguiente manera:
synth_wav.sh --vocoder_models ljspeech.wavenet.mol.v1 example.txt
Wavenet Vocoder proporciona un discurso de muy alta calidad, pero lleva tiempo generar.
Consulte más detalles o modelos disponibles a través de --help
.
synth_wav.sh --help
Puede escuchar algunas muestras en la página web de demostración.
El desafío de conversión de voz 2020 (VCC2020) adopta ESPNet para construir un sistema de referencia basado en extremo a extremo. En VCC2020, el objetivo es intra/VC no paralelo interlingüístico. Puede descargar muestras convertidas del sistema de referencia Cascade ASR+TTS aquí.
Enumeramos el rendimiento en varias tareas y conjuntos de datos de SLU utilizando la métrica reportada en el documento del conjunto de datos original
Tarea | Conjunto de datos | Métrico | Resultado | Modelo previamente capacitado |
---|---|---|---|---|
Clasificación de intención | SORBER | Accidentista | 86.3 | enlace |
Clasificación de intención | FSC | Accidentista | 99.6 | enlace |
Clasificación de intención | Set de altavoces invisible de FSC | Accidentista | 98.6 | enlace |
Clasificación de intención | FSC set de expresión invisible | Accidentista | 86.4 | enlace |
Clasificación de intención | Conjunto de altavoces FSC Challenge | Accidentista | 97.5 | enlace |
Clasificación de intención | FSC Challenge Set de expresión | Accidentista | 78.5 | enlace |
Clasificación de intención | Chisporrotear | F1 | 91.7 | enlace |
Clasificación de intención | Grabo (NL) | Accidentista | 97.2 | enlace |
Clasificación de intención | Mapa de slues de gato (Zn) | Accidentista | 78.9 | enlace |
Clasificación de intención | Comandos de discurso de Google | Accidentista | 98.4 | enlace |
Relleno de ranura | SORBER | SLU-F1 | 71.9 | enlace |
Clasificación de la Ley de diálogo | Tablero de conmutadores | Accidentista | 67.5 | enlace |
Clasificación de la Ley de diálogo | JDCinal (JP) | Accidentista | 67.4 | enlace |
Reconocimiento de emociones | Iemocap | Accidentista | 69.4 | enlace |
Reconocimiento de emociones | swbd_sentiment | Macro F1 | 61.4 | enlace |
Reconocimiento de emociones | slue_voxceleb | Macro F1 | 44.0 | enlace |
Si desea verificar los resultados de las otras recetas, verifique egs2/<name_of_recipe>/asr1/RESULTS.md
.
La segmentación de CTC determina los segmentos de expresión dentro de los archivos de audio. Los segmentos de enunciado alineados constituyen las etiquetas de los conjuntos de datos del habla.
Como demostración, alineamos el inicio y el final de las expresiones dentro del archivo de audio ctc_align_test.wav
, utilizando el script de ejemplo utils/asr_align_wav.sh
. Para la preparación, configure un directorio de datos:
cd egs/tedlium2/align1/
# data directory
align_dir=data/demo
mkdir -p ${align_dir}
# wav file
base=ctc_align_test
wav=../../../test_utils/ ${base} .wav
# recipe files
echo " batchsize: 0 " > ${align_dir} /align.yaml
cat << EOF > ${align_dir} /utt_text
${base} THE SALE OF THE HOTELS
${base} IS PART OF HOLIDAY'S STRATEGY
${base} TO SELL OFF ASSETS
${base} AND CONCENTRATE
${base} ON PROPERTY MANAGEMENT
EOF
Aquí, utt_text
es el archivo que contiene la lista de expresiones. Elija un modelo ASR previamente entrenado que incluya una capa CTC para encontrar segmentos de expresión:
# pre-trained ASR model
model=wsj.transformer_small.v1
mkdir ./conf && cp ../../wsj/asr1/conf/no_preprocess.yaml ./conf
../../../utils/asr_align_wav.sh
--models ${model}
--align_dir ${align_dir}
--align_config ${align_dir} /align.yaml
${wav} ${align_dir} /utt_text
Los segmentos se escriben en aligned_segments
como una lista de nombres de archivos/enunciados, inicio y finalización de la expresión en segundos, y un puntaje de confianza. El puntaje de confianza es una probabilidad en el espacio de registro que indica qué tan bien se alineó la expresión. Si es necesario, elimine las malas expresiones:
min_confidence_score=-5
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' ${align_dir} /aligned_segments
El script de demostración utils/ctc_align_wav.sh
utiliza un modelo ASR ya pre-entrenado (consulte la lista anterior para obtener más modelos). Se recomienda utilizar modelos con codificadores basados en RNN (como BLSTMP) para alinear grandes archivos de audio; en lugar de usar modelos de transformadores con un alto consumo de memoria en datos de audio más largos. La frecuencia de muestreo del audio debe ser consistente con la de los datos utilizados en la capacitación; Ajuste con sox
si es necesario. Una receta de ejemplo completa está en egs/tedlium2/align1/
.
La segmentación de CTC determina los segmentos de expresión dentro de los archivos de audio. Los segmentos de enunciado alineados constituyen las etiquetas de los conjuntos de datos del habla.
Como demostración, alineamos el inicio y el final de las expresiones dentro del archivo de audio ctc_align_test.wav
. Esto se puede hacer directamente desde la línea de comando Python o usando el script espnet2/bin/asr_align.py
.
Desde la interfaz de la línea de comandos de Python:
# load a model with character tokens
from espnet_model_zoo . downloader import ModelDownloader
d = ModelDownloader ( cachedir = "./modelcache" )
wsjmodel = d . download_and_unpack ( "kamo-naoyuki/wsj" )
# load the example file included in the ESPnet repository
import soundfile
speech , rate = soundfile . read ( "./test_utils/ctc_align_test.wav" )
# CTC segmentation
from espnet2 . bin . asr_align import CTCSegmentation
aligner = CTCSegmentation ( ** wsjmodel , fs = rate )
text = """
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE ON PROPERTY MANAGEMENT
"""
segments = aligner ( speech , text )
print ( segments )
# utt1 utt 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 utt 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 utt 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 utt 4.20 6.10 -0.4899 AND CONCENTRATE ON PROPERTY MANAGEMENT
La alineación también funciona con fragmentos del texto. Para esto, establezca la opción gratis_blank
que permite omitir secciones de audio no relacionadas sin penalización. También es posible omitir los nombres de expresión al comienzo de cada línea configurando kaldi_style_text
en falso.
aligner . set_config ( gratis_blank = True , kaldi_style_text = False )
text = [ "SALE OF THE HOTELS" , "PROPERTY MANAGEMENT" ]
segments = aligner ( speech , text )
print ( segments )
# utt_0000 utt 0.37 1.72 -2.0651 SALE OF THE HOTELS
# utt_0001 utt 4.70 6.10 -5.0566 PROPERTY MANAGEMENT
El script espnet2/bin/asr_align.py
utiliza una interfaz similar. Para alinear las expresiones:
# ASR model and config files from pre-trained model (e.g., from cachedir):
asr_config= < path-to-model > /config.yaml
asr_model= < path-to-model > /valid. * best.pth
# prepare the text file
wav= " test_utils/ctc_align_test.wav "
text= " test_utils/ctc_align_text.txt "
cat << EOF > ${text}
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE
utt5 ON PROPERTY MANAGEMENT
EOF
# obtain alignments:
python espnet2/bin/asr_align.py --asr_train_config ${asr_config} --asr_model_file ${asr_model} --audio ${wav} --text ${text}
# utt1 ctc_align_test 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 ctc_align_test 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 ctc_align_test 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 ctc_align_test 4.20 4.97 -0.6017 AND CONCENTRATE
# utt5 ctc_align_test 4.97 6.10 -0.3477 ON PROPERTY MANAGEMENT
La salida del script se puede redirigir a un archivo segments
agregando el argumento --output segments
. Cada línea contiene el nombre del archivo/enunciado, el inicio de la expresión y los tiempos de finalización en segundos, y un puntaje de confianza; Opcionalmente también el texto de la expresión. El puntaje de confianza es una probabilidad en el espacio de registro que indica qué tan bien se alineó la expresión. Si es necesario, elimine las malas expresiones:
min_confidence_score=-7
# here, we assume that the output was written to the file `segments`
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' segments
Consulte la documentación del módulo para obtener más información. Se recomienda utilizar modelos con codificadores basados en RNN (como BLSTMP) para alinear grandes archivos de audio; En lugar de usar modelos de transformadores que tienen un alto consumo de memoria en datos de audio más largos. La frecuencia de muestreo del audio debe ser consistente con la de los datos utilizados en la capacitación; Ajuste con sox
si es necesario.
Además, podemos usar esta herramienta para proporcionar información de segmentación a nivel de token si preparamos una lista de tokens en lugar de la de las expresiones en el archivo text
. Vea la discusión en #4278 (comentario).
@inproceedings{watanabe2018espnet,
author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson {Enrique Yalta Soplin} and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
title={{ESPnet}: End-to-End Speech Processing Toolkit},
year={2018},
booktitle={Proceedings of Interspeech},
pages={2207--2211},
doi={10.21437/Interspeech.2018-1456},
url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={7654--7658},
year={2020},
organization={IEEE}
}
@inproceedings{inaguma-etal-2020-espnet,
title = "{ESP}net-{ST}: All-in-One Speech Translation Toolkit",
author = "Inaguma, Hirofumi and
Kiyono, Shun and
Duh, Kevin and
Karita, Shigeki and
Yalta, Nelson and
Hayashi, Tomoki and
Watanabe, Shinji",
booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.acl-demos.34",
pages = "302--311",
}
@article{hayashi2021espnet2,
title={{ESP}net2-{TTS}: Extending the edge of {TTS} research},
author={Hayashi, Tomoki and Yamamoto, Ryuichi and Yoshimura, Takenori and Wu, Peter and Shi, Jiatong and Saeki, Takaaki and Ju, Yooncheol and Yasuda, Yusuke and Takamichi, Shinnosuke and Watanabe, Shinji},
journal={arXiv preprint arXiv:2110.07840},
year={2021}
}
@inproceedings{li2020espnet,
title={{ESPnet-SE}: End-to-End Speech Enhancement and Separation Toolkit Designed for {ASR} Integration},
author={Chenda Li and Jing Shi and Wangyou Zhang and Aswin Shanmugam Subramanian and Xuankai Chang and Naoyuki Kamo and Moto Hira and Tomoki Hayashi and Christoph Boeddeker and Zhuo Chen and Shinji Watanabe},
booktitle={Proceedings of IEEE Spoken Language Technology Workshop (SLT)},
pages={785--792},
year={2021},
organization={IEEE},
}
@inproceedings{arora2021espnet,
title={{ESPnet-SLU}: Advancing Spoken Language Understanding through ESPnet},
author={Arora, Siddhant and Dalmia, Siddharth and Denisov, Pavel and Chang, Xuankai and Ueda, Yushi and Peng, Yifan and Zhang, Yuekai and Kumar, Sujay and Ganesan, Karthik and Yan, Brian and others},
booktitle={ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={7167--7171},
year={2022},
organization={IEEE}
}
@inproceedings{shi2022muskits,
author={Shi, Jiatong and Guo, Shuai and Qian, Tao and Huo, Nan and Hayashi, Tomoki and Wu, Yuning and Xu, Frank and Chang, Xuankai and Li, Huazhe and Wu, Peter and Watanabe, Shinji and Jin, Qin},
title={{Muskits}: an End-to-End Music Processing Toolkit for Singing Voice Synthesis},
year={2022},
booktitle={Proceedings of Interspeech},
pages={4277-4281},
url={https://www.isca-speech.org/archive/pdfs/interspeech_2022/shi22d_interspeech.pdf}
}
@inproceedings{lu22c_interspeech,
author={Yen-Ju Lu and Xuankai Chang and Chenda Li and Wangyou Zhang and Samuele Cornell and Zhaoheng Ni and Yoshiki Masuyama and Brian Yan and Robin Scheibler and Zhong-Qiu Wang and Yu Tsao and Yanmin Qian and Shinji Watanabe},
title={{ESPnet-SE++: Speech Enhancement for Robust Speech Recognition, Translation, and Understanding}},
year=2022,
booktitle={Proc. Interspeech 2022},
pages={5458--5462},
}
@inproceedings{gao2023euro,
title={{EURO: ESP}net unsupervised {ASR} open-source toolkit},
author={Gao, Dongji and Shi, Jiatong and Chuang, Shun-Po and Garcia, Leibny Paola and Lee, Hung-yi and Watanabe, Shinji and Khudanpur, Sanjeev},
booktitle={ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={1--5},
year={2023},
organization={IEEE}
}
@inproceedings{peng2023reproducing,
title={Reproducing {W}hisper-style training using an open-source toolkit and publicly available data},
author={Peng, Yifan and Tian, Jinchuan and Yan, Brian and Berrebbi, Dan and Chang, Xuankai and Li, Xinjian and Shi, Jiatong and Arora, Siddhant and Chen, William and Sharma, Roshan and others},
booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
pages={1--8},
year={2023},
organization={IEEE}
}
@inproceedings{sharma2023espnet,
title={ESPnet-{SUMM}: Introducing a novel large dataset, toolkit, and a cross-corpora evaluation of speech summarization systems},
author={Sharma, Roshan and Chen, William and Kano, Takatomo and Sharma, Ruchira and Arora, Siddhant and Watanabe, Shinji and Ogawa, Atsunori and Delcroix, Marc and Singh, Rita and Raj, Bhiksha},
booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
pages={1--8},
year={2023},
organization={IEEE}
}
@article{jung2024espnet,
title={{ESPnet-SPK}: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models},
author={Jung, Jee-weon and Zhang, Wangyou and Shi, Jiatong and Aldeneh, Zakaria and Higuchi, Takuya and Theobald, Barry-John and Abdelaziz, Ahmed Hussen and Watanabe, Shinji},
journal={Proc. Interspeech 2024},
year={2024}
}
@inproceedings{yan-etal-2023-espnet,
title = "{ESP}net-{ST}-v2: Multipurpose Spoken Language Translation Toolkit",
author = "Yan, Brian and
Shi, Jiatong and
Tang, Yun and
Inaguma, Hirofumi and
Peng, Yifan and
Dalmia, Siddharth and
Pol{'a}k, Peter and
Fernandes, Patrick and
Berrebbi, Dan and
Hayashi, Tomoki and
Zhang, Xiaohui and
Ni, Zhaoheng and
Hira, Moto and
Maiti, Soumi and
Pino, Juan and
Watanabe, Shinji",
booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)",
year = "2023",
publisher = "Association for Computational Linguistics",
pages = "400--411",
}