Документы | Пример | Пример (ESPNet2) | Docker | Блокнот
ESPNet-это сквозное речевое инструментарий, охватывающий сквозное распознавание речи, текст в речь, перевод речи, улучшение речи, дневник оратора, понимание разговорного языка и так далее. ESPNet использует Pytorch в качестве двигателя глубокого обучения, а также следует за обработкой данных в стиле Kaldi, извлечении/формате функций и рецептах, чтобы обеспечить полную настройку для различных экспериментов по обработке речи.
ASR
(WSJ, Switchboard, Chime-4/5, Librispeech, TED, CSJ, AMI, HKUST, Voxforge, Reverb, Gigaspeech и т. Д.)TTS
аналогично рецепту ASR (LJSPEECH, LIBRITTS, M-AILABS и т. Д.)ST
(Fisher-Callhome Spanish, Libri-Trans, IWSLT'18, How2, UST-C, MBOSHI-FRENCH и т. Д.)MT
(IWSLT'14, IWSLT'16, приведенные выше рецепты ST и т. Д.)SLU
(Catslu-Maps, FSC, Grabo, IEMOCAP, JDCINAL, SNIPS, SLURP, SWBD-DA и т. Д.)SE/SS
(DNS-IS2020, Librimix, SMS-WSJ, VCTK-NOISYREVERB, WHAM!, WHAMR!, WSJ-2MIX и т. Д.)Пожалуйста, обратитесь к странице учебного пособия для полной документации.
frontend
на s3prl
frontend_conf
на соответствующее имя.Демонстрация
Демонстрация
Чтобы обучить нейронного вокадера, пожалуйста, проверьте следующие репозитории:
Демонстрация
Смотрите ESPNet2.
Если вы собираетесь провести полные эксперименты, включая обучение DNN, то см. Установку.
Если вам просто нужен только модуль Python:
# We recommend you install PyTorch before installing espnet following https://pytorch.org/get-started/locally/
pip install espnet
# To install the latest
# pip install git+https://github.com/espnet/espnet
# To install additional packages
# pip install "espnet[all]"
Если вы используете ESPNet1, пожалуйста, установите цепь и Cupy.
pip install chainer==6.0.0 cupy==6.0.0 # [Option]
Возможно, вам придется установить несколько пакетов в зависимости от каждой задачи. Мы подготовили различные сценарии установки в инструментах/установщиках.
(ESPNet2) После установки запустите wandb login
и Set --use_wandb true
, чтобы включить отслеживание прогонов с использованием W & B.
Перейдите в Docker/ и следуйте инструкциям.
Спасибо, что нашли время для ESPNet! Любой вклад в ESPNet приветствуются и не стесняйтесь задавать любые вопросы или запросы по вопросам. Если это ваш первый вклад ESPNet, пожалуйста, следуйте руководству взноса.
Мы перечислим частоту ошибок символа (CER) и частоту ошибок Word (WER) основных задач ASR.
Задача | Cer (%) | Wer (%) | Предварительно обученная модель |
---|---|---|---|
Айшелл Дев/Тест | 4.6/5.1 | N/a | связь |
ESPNet2 Aishell Dev/Test | 4.1/4.4 | N/a | связь |
Общий голос разработчик/тест | 1,7/1,8 | 2.2/2.3 | связь |
CSJ Eval1/Eval2/Eval3 | 5,7/3,8/4.2 | N/a | связь |
ESPNet2 CSJ Eval1/Eval2/Eval3 | 4,5/3,3/3,6 | N/a | связь |
Espnet2 gigaspeech dev/test | N/a | 10.6/10.5 | связь |
Hkust Dev | 23.5 | N/a | связь |
Espnet2 hkust dev | 21.2 | N/a | связь |
Librispeech dev_clean/dev_other/test_clean/test_other | N/a | 1,9/4.9/2,1/4.9 | связь |
ESPNet2 librispeech dev_clean/dev_other/test_clean/test_other | 0,6/1,5/0,6/1,4 | 1,7/3,4/1,8/3,6 | связь |
Switchboard (Eval2000) Callhm/SWBD | N/a | 14.0/6.8 | связь |
Коммулятор ESPNet2 (Eval2000) Callhm/SWBD | N/a | 13.4/7.3 | связь |
Tedlium2 dev/test | N/a | 8.6/7.2 | связь |
ESPNet2 Tedlium2 Dev/Test | N/a | 7.3/7.1 | связь |
Tedlium3 dev/test | N/a | 9.6/7.6 | связь |
WSJ Dev93/Eval92 | 3.2/2.1 | 7.0/4.7 | N/a |
ESPNet2 WSJ Dev93/Eval92 | 1,1/0,8 | 2.8/1,8 | связь |
Обратите внимание, что производительность задач CSJ, HKUST и Librispeech была значительно улучшена с использованием широкой сети (#UNITS = 1024) и больших подразделений, если это необходимо, сообщили RWTH.
Если вы хотите проверить результаты других рецептов, пожалуйста, проверьте egs/<name_of_recipe>/asr1/RESULTS.md
.
Вы можете распознать речь в файле WAV, используя предварительно обученные модели. Перейдите в каталог рецептов и запустите utils/recog_wav.sh
следующим образом:
# go to the recipe directory and source path of espnet tools
cd egs/tedlium2/asr1 && . ./path.sh
# let's recognize speech!
recog_wav.sh --models tedlium2.transformer.v1 example.wav
где example.wav
- это файл wav, который будет распознавать. Скорость выборки должна соответствовать частоте данных, используемых при обучении.
Доступные предварительно обученные модели в демонстрационном скрипте перечислены ниже.
Модель | Примечания |
---|---|
tedlium2.rnn.v1 | Потоковое декодирование на основе VAD на основе CTC |
tedlium2.rnn.v2 | Потоковое декодирование на основе VAD на основе CTC (пакетное декодирование) |
tedlium2.transformer.v1 | Трансформатор внимания совместного CTC, обученный Tedlium 2 |
tedlium3.transformer.v1 | Трансформатор внимания совместного CTC, обученный Tedlium 3 |
librispeech.transformer.v1 | Совместный трансформатор внимания CTC, обученный на Librispeech |
commonvoice.transformer.v1 | Совместный трансформатор внимания CTC, обученный CommonVoice |
csj.transformer.v1 | Совместный трансформатор внимания CTC, обученный CSJ |
csj.rnn.v1 | Совместное внимание внимания VGGBLSTM, обученная CSJ |
Мы перечисляем результаты из трех различных моделей на WSJ0-2MIX, который является одним из наиболее широко используемых наборов данных для разделения речи.
Модель | Стои | Сар - | Стержня | СЭР |
---|---|---|---|---|
Маскировка TF | 0,89 | 11.40 | 10.24 | 18.04 |
Конвешетка | 0,95 | 16.62 | 15.94 | 25,90 |
DPRNN-TASNET | 0,96 | 18.82 | 18.29 | 28.92 |
Он основан на ESPNet2. Предварительно обученные модели доступны как для улучшения речи, так и для задач разлуки речи.
Разделение речи Демоверсии:
Мы перечислим 4-граммовый блю с крупными задачами ST.
Задача | Блю | Предварительно обученная модель |
---|---|---|
Fisher-Callhome Испанский рыбак_test (es-> en) | 51.03 | связь |
Fisher-Callhome Испанский callhome_evltest (es-> en) | 20.44 | связь |
Тест libri-trans (en-> fr) | 16.70 | связь |
How2 dev5 (en-> pt) | 45,68 | связь |
Необходимо C TST-Common (En-> de) | 22.91 | связь |
MBOSHI-FRENCH DEV (FR-> MBOSHI) | 6.18 | N/a |
Задача | Блю | Предварительно обученная модель |
---|---|---|
Fisher-Callhome Испанский рыбак_test (es-> en) | 42.16 | N/a |
Fisher-Callhome Испанский callhome_evltest (es-> en) | 19.82 | N/a |
Тест libri-trans (en-> fr) | 16.96 | N/a |
How2 dev5 (en-> pt) | 44,90 | N/a |
Необходимо C TST-Common (En-> de) | 23.65 | N/a |
Если вы хотите проверить результаты других рецептов, пожалуйста, проверьте egs/<name_of_recipe>/st1/RESULTS.md
.
( Новое! ) Мы сделали новую демонстрацию E2E-ST + TTS в реальном времени в Google Colab. Пожалуйста, обратитесь к ноутбуке со следующей кнопки и наслаждайтесь переводом речи в речь в реальном времени!
Вы можете перевести речь в файле WAV, используя предварительно обученные модели. Перейдите в каталог рецептов и запустите utils/translate_wav.sh
следующим образом:
# Go to recipe directory and source path of espnet tools
cd egs/fisher_callhome_spanish/st1 && . ./path.sh
# download example wav file
wget -O - https://github.com/espnet/espnet/files/4100928/test.wav.tar.gz | tar zxvf -
# let's translate speech!
translate_wav.sh --models fisher_callhome_spanish.transformer.v1.es-en test.wav
где test.wav
- это файл wav, который будет переведен. Скорость выборки должна соответствовать частоте данных, используемых при обучении.
Доступные предварительно обученные модели в демонстрационном скрипте перечислены, как показано ниже.
Модель | Примечания |
---|---|
Fisher_callhome_spanish.transformer.v1 | Transformer-St Trade на Fisher-Callhome Spanish es-> en |
Задача | Блю | Предварительно обученная модель |
---|---|---|
Fisher-Callhome Испанский рыбак_test (es-> en) | 61.45 | связь |
Fisher-Callhome Испанский callhome_evltest (es-> en) | 29,86 | связь |
Тест libri-trans (en-> fr) | 18.09 | связь |
How2 dev5 (en-> pt) | 58.61 | связь |
Необходимо C TST-Common (En-> de) | 27.63 | связь |
Iwslt'14 test2014 (en-> de) | 24,70 | связь |
Iwslt'14 test2014 (de-> en) | 29,22 | связь |
Iwslt'14 test2014 (de-> en) | 32.2 | связь |
Iwslt'16 test2014 (en-> de) | 24.05 | связь |
Iwslt'16 test2014 (de-> en) | 29.13 | связь |
Вы можете слушать сгенерированные образцы в следующем URL.
Обратите внимание, что в поколении мы используем Griffin-Lim (
wav/
) и параллельный Wawgan (wav_pwg/
).
Вы можете скачать предварительно обученные модели через espnet_model_zoo
.
Вы можете скачать предварительно обученные Vocoders через kan-bayashi/ParallelWaveGAN
.
ПРИМЕЧАНИЕ: мы перемещаемся на разработку на основе ESPNet2 для TTS. Пожалуйста, проверьте последние результаты в приведенных выше результатах ESPNet2.
Вы можете послушать наши образцы в демонстрации HP ESPNet-TTS-Sample. Здесь мы перечислим некоторые примечательные:
Вы можете скачать все предварительно обученные модели и сгенерированные образцы:
Обратите внимание, что в сгенерированных образцах мы используем следующие вокодеры: Griffin-Lim ( GL ), Wavenet Vocoder ( Wavenet ), Parallel Wabegan ( Parallelwavegan ) и Мелган ( Мелган ). Нейронные вокодеры основаны на следующих репозиториях.
Если вы хотите построить свой собственный нейронный вокадер, пожалуйста, проверьте вышеупомянутые репозитории. Kan-Bayashi/ParallelWavegan предоставляет руководство о том, как декодировать особенности модели ESPNet-TTS с нейронными вокалами. Пожалуйста, проверьте это.
Здесь мы перечислим все предварительно обученные нейронные вокалисты. Пожалуйста, скачайте и наслаждайтесь поколением высококачественной речи!
Модель ссылка | Ланг | FS [Гц] | MEL RANGE [Гц] | FFT / Shift / Win [Pt] | Тип модели |
---|---|---|---|---|---|
ljspeech.wavenet.softmax.ns.v1 | Поступка | 22.05K | Никто | 1024 /256 / нет | Softmax Wavenet |
ljspeech.wavenet.mol.v1 | Поступка | 22.05K | Никто | 1024 /256 / нет | Мол Волны |
ljspeech.parallel_wavegan.v1 | Поступка | 22.05K | Никто | 1024 /256 / нет | Параллельная волна |
ljspeech.wavenet.mol.v2 | Поступка | 22.05K | 80-7600 | 1024 /256 / нет | Мол Волны |
ljspeech.parallel_wavegan.v2 | Поступка | 22.05K | 80-7600 | 1024 /256 / нет | Параллельная волна |
ljspeech.melgan.v1 | Поступка | 22.05K | 80-7600 | 1024 /256 / нет | Мелган |
ljspeech.melgan.v3 | Поступка | 22.05K | 80-7600 | 1024 /256 / нет | Мелган |
libritts.wavenet.mol.v1 | Поступка | 24K | Никто | 1024 /256 / нет | Мол Волны |
jsut.wavenet.mol.v1 | JP | 24K | 80-7600 | 2048 /300 /1200 | Мол Волны |
jsut.parallel_wavegan.v1 | JP | 24K | 80-7600 | 2048 /300 /1200 | Параллельная волна |
csmsc.wavenet.mol.v1 | ZH | 24K | 80-7600 | 2048 /300 /1200 | Мол Волны |
csmsc.parallel_wavegan.v1 | ZH | 24K | 80-7600 | 2048 /300 /1200 | Параллельная волна |
Если вы хотите использовать вышеуказанные предварительно обученные вокадеры, пожалуйста, точно сопоставьте настройку функции с ними.
Вы можете попробовать демо в реальном времени в Google Colab. Пожалуйста, обратитесь к ноутбуке со следующей кнопки и наслаждайтесь синтезом в реальном времени!
Модели английского, японского и мандарина доступны в демонстрации.
ПРИМЕЧАНИЕ: мы перемещаемся на разработку на основе ESPNet2 для TTS. Пожалуйста, проверьте последнюю демонстрацию в приведенной выше демонстрации ESPNet2.
Вы можете попробовать демо в реальном времени в Google Colab. Пожалуйста, обратитесь к ноутбуке со следующей кнопки и наслаждайтесь синтезом в реальном времени.
Мы также предоставляем сценарий оболочки для выполнения синтеза. Перейдите в каталог рецептов и запустите utils/synth_wav.sh
следующим образом:
# Go to recipe directory and source path of espnet tools
cd egs/ljspeech/tts1 && . ./path.sh
# We use an upper-case char sequence for the default model.
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example.txt
# let's synthesize speech!
synth_wav.sh example.txt
# Also, you can use multiple sentences
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example_multi.txt
echo " TEXT TO SPEECH IS A TECHNIQUE TO CONVERT TEXT INTO SPEECH. " >> example_multi.txt
synth_wav.sh example_multi.txt
Вы можете изменить предварительно обученную модель следующим образом:
synth_wav.sh --models ljspeech.fastspeech.v1 example.txt
Синтез формы волны выполняется с помощью алгоритма гриффин-лим и нейронных вокалеров (Wavenet и Parallelwavegan). Вы можете изменить предварительно обученную модель Vocoder следующим образом:
synth_wav.sh --vocoder_models ljspeech.wavenet.mol.v1 example.txt
Wavenet Vocoder обеспечивает очень качественную речь, но для генерации требуется время.
Смотрите более подробную информацию или доступные модели через --help
.
synth_wav.sh --help
Вы можете выслушать некоторые образцы на демонстрационной веб -странице.
Программа преобразования голоса 2020 (VCC2020) принимает ESPNET для создания базовой системы на основе сквозной основы. В VCC2020 целью является внутри/кросс-лингальная непараллельная VC. Вы можете скачать конвертированные образцы каскадной базовой системы ASR+TTS здесь.
Мы перечислим производительность в различных задачах и наборах данных SLU, используя метрику, сообщаемую в оригинальной бумаге данных
Задача | Набор данных | Показатель | Результат | Предварительно обученная модель |
---|---|---|---|---|
Классификация намерений | Нанести | Акк | 86.3 | связь |
Классификация намерений | Фс | Акк | 99,6 | связь |
Классификация намерений | FSC невидимый набор динамиков | Акк | 98.6 | связь |
Классификация намерений | FSC невидимый набор высказываний | Акк | 86.4 | связь |
Классификация намерений | FSC Challenge Set Speaker Set | Акк | 97.5 | связь |
Классификация намерений | FSC Challenge Set Shetave Set | Акк | 78.5 | связь |
Классификация намерений | Снам | F1 | 91.7 | связь |
Классификация намерений | Грабро (NL) | Акк | 97.2 | связь |
Классификация намерений | Cat Slu Map (Zn) | Акк | 78.9 | связь |
Классификация намерений | Google Speech Commands | Акк | 98.4 | связь |
Слот -начинка | Нанести | SLU-F1 | 71.9 | связь |
Классификация акта диалога | Коммутатор | Акк | 67.5 | связь |
Классификация акта диалога | Jdcinal (JP) | Акк | 67.4 | связь |
Распознавание эмоций | Iemocap | Акк | 69,4 | связь |
Распознавание эмоций | swbd_sentiment | Макро F1 | 61.4 | связь |
Распознавание эмоций | slue_voxceleb | Макро F1 | 44,0 | связь |
Если вы хотите проверить результаты других рецептов, пожалуйста, проверьте egs2/<name_of_recipe>/asr1/RESULTS.md
.
Сегментация CTC определяет сегменты высказывания в аудиофайлах. Выровненные сегменты высказывания представляют собой ярлыки наборов данных речевых данных.
В качестве демонстрации мы выровняем начало и конец высказываний в аудиофайле ctc_align_test.wav
, используя пример сценария utils/asr_align_wav.sh
. Для подготовки настройте каталог данных:
cd egs/tedlium2/align1/
# data directory
align_dir=data/demo
mkdir -p ${align_dir}
# wav file
base=ctc_align_test
wav=../../../test_utils/ ${base} .wav
# recipe files
echo " batchsize: 0 " > ${align_dir} /align.yaml
cat << EOF > ${align_dir} /utt_text
${base} THE SALE OF THE HOTELS
${base} IS PART OF HOLIDAY'S STRATEGY
${base} TO SELL OFF ASSETS
${base} AND CONCENTRATE
${base} ON PROPERTY MANAGEMENT
EOF
Здесь utt_text
- это файл, содержащий список высказываний. Выберите предварительно обученную модель ASR, которая включает в себя слой CTC, чтобы найти сегменты высказывания:
# pre-trained ASR model
model=wsj.transformer_small.v1
mkdir ./conf && cp ../../wsj/asr1/conf/no_preprocess.yaml ./conf
../../../utils/asr_align_wav.sh
--models ${model}
--align_dir ${align_dir}
--align_config ${align_dir} /align.yaml
${wav} ${align_dir} /utt_text
Сегменты записываются в aligned_segments
как список имен файлов/высказывания, начала и окончания высказывания и окончания и оценки доверия. Оценка доверия - это вероятность в логарифмическом пространстве, которая указывает на то, насколько хорошо высказывалось высказывание. При необходимости удалите плохие высказывания:
min_confidence_score=-5
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' ${align_dir} /aligned_segments
Демонстрационный скрипт utils/ctc_align_wav.sh
использует уже предварительно обученную модель ASR (см. Список выше для большего количества моделей). Рекомендуется использовать модели с кодерами на основе RNN (например, BLSTMP) для выравнивания больших аудиофайлов; Вместо того, чтобы использовать трансформаторные модели с высоким потреблением памяти на более длинных аудиодатах. Скорость дискретизации звука должна соответствовать частоте данных, используемых при обучении; При необходимости отрегулируйте с sox
. Полный пример рецепта в egs/tedlium2/align1/
.
Сегментация CTC определяет сегменты высказывания в аудиофайлах. Выровненные сегменты высказывания представляют собой ярлыки наборов данных речевых данных.
В качестве демонстрации мы выровняем начало и конец высказываний в аудиофайле ctc_align_test.wav
. Это может быть сделано либо непосредственно из командной строки Python, либо с помощью Script espnet2/bin/asr_align.py
.
От интерфейса командной строки Python:
# load a model with character tokens
from espnet_model_zoo . downloader import ModelDownloader
d = ModelDownloader ( cachedir = "./modelcache" )
wsjmodel = d . download_and_unpack ( "kamo-naoyuki/wsj" )
# load the example file included in the ESPnet repository
import soundfile
speech , rate = soundfile . read ( "./test_utils/ctc_align_test.wav" )
# CTC segmentation
from espnet2 . bin . asr_align import CTCSegmentation
aligner = CTCSegmentation ( ** wsjmodel , fs = rate )
text = """
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE ON PROPERTY MANAGEMENT
"""
segments = aligner ( speech , text )
print ( segments )
# utt1 utt 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 utt 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 utt 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 utt 4.20 6.10 -0.4899 AND CONCENTRATE ON PROPERTY MANAGEMENT
Выравнивание также работает с фрагментами текста. Для этого установите опцию gratis_blank
, которая позволяет пропускать не связанные аудио -разделы без штрафа. Также можно опустить имена высказываний в начале каждой строки, установив kaldi_style_text
на false.
aligner . set_config ( gratis_blank = True , kaldi_style_text = False )
text = [ "SALE OF THE HOTELS" , "PROPERTY MANAGEMENT" ]
segments = aligner ( speech , text )
print ( segments )
# utt_0000 utt 0.37 1.72 -2.0651 SALE OF THE HOTELS
# utt_0001 utt 4.70 6.10 -5.0566 PROPERTY MANAGEMENT
Скрипт espnet2/bin/asr_align.py
использует аналогичный интерфейс. Чтобы выравнивать высказывания:
# ASR model and config files from pre-trained model (e.g., from cachedir):
asr_config= < path-to-model > /config.yaml
asr_model= < path-to-model > /valid. * best.pth
# prepare the text file
wav= " test_utils/ctc_align_test.wav "
text= " test_utils/ctc_align_text.txt "
cat << EOF > ${text}
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE
utt5 ON PROPERTY MANAGEMENT
EOF
# obtain alignments:
python espnet2/bin/asr_align.py --asr_train_config ${asr_config} --asr_model_file ${asr_model} --audio ${wav} --text ${text}
# utt1 ctc_align_test 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 ctc_align_test 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 ctc_align_test 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 ctc_align_test 4.20 4.97 -0.6017 AND CONCENTRATE
# utt5 ctc_align_test 4.97 6.10 -0.3477 ON PROPERTY MANAGEMENT
Вывод сценария может быть перенаправлен в файл segments
путем добавления --output segments
аргумента. Каждая строка содержит имя файла/высказывания, время начала и окончания высказывания в секунды и оценку уверенности; При желании также текст высказывания. Оценка доверия - это вероятность в логарифмическом пространстве, которая указывает на то, насколько хорошо высказывалось высказывание. При необходимости удалите плохие высказывания:
min_confidence_score=-7
# here, we assume that the output was written to the file `segments`
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' segments
Смотрите документацию модуля для получения дополнительной информации. Рекомендуется использовать модели с кодерами на основе RNN (например, BLSTMP) для выравнивания больших аудиофайлов; Вместо того, чтобы использовать модели трансформаторов, которые имеют высокое потребление памяти для более длинных аудиоданных. Скорость дискретизации звука должна соответствовать частоте данных, используемых при обучении; При необходимости отрегулируйте с sox
.
Кроме того, мы можем использовать этот инструмент для предоставления информации о сегментации уровня токена, если мы подготовим список токенов вместо того, чтобы высказывания в text
файле. См. Обсуждение в #4278 (комментарий).
@inproceedings{watanabe2018espnet,
author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson {Enrique Yalta Soplin} and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
title={{ESPnet}: End-to-End Speech Processing Toolkit},
year={2018},
booktitle={Proceedings of Interspeech},
pages={2207--2211},
doi={10.21437/Interspeech.2018-1456},
url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={7654--7658},
year={2020},
organization={IEEE}
}
@inproceedings{inaguma-etal-2020-espnet,
title = "{ESP}net-{ST}: All-in-One Speech Translation Toolkit",
author = "Inaguma, Hirofumi and
Kiyono, Shun and
Duh, Kevin and
Karita, Shigeki and
Yalta, Nelson and
Hayashi, Tomoki and
Watanabe, Shinji",
booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.acl-demos.34",
pages = "302--311",
}
@article{hayashi2021espnet2,
title={{ESP}net2-{TTS}: Extending the edge of {TTS} research},
author={Hayashi, Tomoki and Yamamoto, Ryuichi and Yoshimura, Takenori and Wu, Peter and Shi, Jiatong and Saeki, Takaaki and Ju, Yooncheol and Yasuda, Yusuke and Takamichi, Shinnosuke and Watanabe, Shinji},
journal={arXiv preprint arXiv:2110.07840},
year={2021}
}
@inproceedings{li2020espnet,
title={{ESPnet-SE}: End-to-End Speech Enhancement and Separation Toolkit Designed for {ASR} Integration},
author={Chenda Li and Jing Shi and Wangyou Zhang and Aswin Shanmugam Subramanian and Xuankai Chang and Naoyuki Kamo and Moto Hira and Tomoki Hayashi and Christoph Boeddeker and Zhuo Chen and Shinji Watanabe},
booktitle={Proceedings of IEEE Spoken Language Technology Workshop (SLT)},
pages={785--792},
year={2021},
organization={IEEE},
}
@inproceedings{arora2021espnet,
title={{ESPnet-SLU}: Advancing Spoken Language Understanding through ESPnet},
author={Arora, Siddhant and Dalmia, Siddharth and Denisov, Pavel and Chang, Xuankai and Ueda, Yushi and Peng, Yifan and Zhang, Yuekai and Kumar, Sujay and Ganesan, Karthik and Yan, Brian and others},
booktitle={ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={7167--7171},
year={2022},
organization={IEEE}
}
@inproceedings{shi2022muskits,
author={Shi, Jiatong and Guo, Shuai and Qian, Tao and Huo, Nan and Hayashi, Tomoki and Wu, Yuning and Xu, Frank and Chang, Xuankai and Li, Huazhe and Wu, Peter and Watanabe, Shinji and Jin, Qin},
title={{Muskits}: an End-to-End Music Processing Toolkit for Singing Voice Synthesis},
year={2022},
booktitle={Proceedings of Interspeech},
pages={4277-4281},
url={https://www.isca-speech.org/archive/pdfs/interspeech_2022/shi22d_interspeech.pdf}
}
@inproceedings{lu22c_interspeech,
author={Yen-Ju Lu and Xuankai Chang and Chenda Li and Wangyou Zhang and Samuele Cornell and Zhaoheng Ni and Yoshiki Masuyama and Brian Yan and Robin Scheibler and Zhong-Qiu Wang and Yu Tsao and Yanmin Qian and Shinji Watanabe},
title={{ESPnet-SE++: Speech Enhancement for Robust Speech Recognition, Translation, and Understanding}},
year=2022,
booktitle={Proc. Interspeech 2022},
pages={5458--5462},
}
@inproceedings{gao2023euro,
title={{EURO: ESP}net unsupervised {ASR} open-source toolkit},
author={Gao, Dongji and Shi, Jiatong and Chuang, Shun-Po and Garcia, Leibny Paola and Lee, Hung-yi and Watanabe, Shinji and Khudanpur, Sanjeev},
booktitle={ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={1--5},
year={2023},
organization={IEEE}
}
@inproceedings{peng2023reproducing,
title={Reproducing {W}hisper-style training using an open-source toolkit and publicly available data},
author={Peng, Yifan and Tian, Jinchuan and Yan, Brian and Berrebbi, Dan and Chang, Xuankai and Li, Xinjian and Shi, Jiatong and Arora, Siddhant and Chen, William and Sharma, Roshan and others},
booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
pages={1--8},
year={2023},
organization={IEEE}
}
@inproceedings{sharma2023espnet,
title={ESPnet-{SUMM}: Introducing a novel large dataset, toolkit, and a cross-corpora evaluation of speech summarization systems},
author={Sharma, Roshan and Chen, William and Kano, Takatomo and Sharma, Ruchira and Arora, Siddhant and Watanabe, Shinji and Ogawa, Atsunori and Delcroix, Marc and Singh, Rita and Raj, Bhiksha},
booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
pages={1--8},
year={2023},
organization={IEEE}
}
@article{jung2024espnet,
title={{ESPnet-SPK}: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models},
author={Jung, Jee-weon and Zhang, Wangyou and Shi, Jiatong and Aldeneh, Zakaria and Higuchi, Takuya and Theobald, Barry-John and Abdelaziz, Ahmed Hussen and Watanabe, Shinji},
journal={Proc. Interspeech 2024},
year={2024}
}
@inproceedings{yan-etal-2023-espnet,
title = "{ESP}net-{ST}-v2: Multipurpose Spoken Language Translation Toolkit",
author = "Yan, Brian and
Shi, Jiatong and
Tang, Yun and
Inaguma, Hirofumi and
Peng, Yifan and
Dalmia, Siddharth and
Pol{'a}k, Peter and
Fernandes, Patrick and
Berrebbi, Dan and
Hayashi, Tomoki and
Zhang, Xiaohui and
Ni, Zhaoheng and
Hira, Moto and
Maiti, Soumi and
Pino, Juan and
Watanabe, Shinji",
booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)",
year = "2023",
publisher = "Association for Computational Linguistics",
pages = "400--411",
}