文档|示例|示例(ESPNET2) | Docker |笔记本
ESPNET是一种端到端的语音处理工具包,涵盖端到端语音识别,文本到语音,语音翻译,语音增强,言语诊断,口语理解等等。 ESPNET使用Pytorch作为深度学习引擎,还遵循Kaldi样式数据处理,功能提取/格式以及配方为各种语音处理实验提供完整的设置。
ASR
配方的支持号码(WSJ,总机,Chime-4/5,LibrisPeech,TED,CSJ,AMI,HKUST,VOXFORGE,VOXFORGE,REVERB,GIGASPEECH等)TTS
食谱的数字ST
食谱的支持数(Fisher-Callhome西班牙语,Libri-Trans,IWSLT'18,HOW2,RESS-C,Mboshi-French等)MT
食谱的支持号码(IWSLT'14,IWSLT'16,上述ST食谱等)SLU
食谱的支持号码(Catslu-Maps,FSC,Grabo,Iemocap,Jdcinal,snips,slurp,swbd-da等)SE/SS
食谱的支持编号(DNS-IS2020,Librimix,SMS-WSJ,VCTK-NoisyReverb,Wham!,Whamr!,WSJ-2Mix等)请参阅教程页面以获取完整的文档。
frontend
设置为s3prl
frontend_conf
设置为相应的名称来选择任何上游模型。示范
示范
要培训神经声码器,请检查以下存储库:
示范
请参阅ESPNET2。
如果您打算进行完整的实验,包括DNN培训,请参阅安装。
如果您只需要Python模块:
# We recommend you install PyTorch before installing espnet following https://pytorch.org/get-started/locally/
pip install espnet
# To install the latest
# pip install git+https://github.com/espnet/espnet
# To install additional packages
# pip install "espnet[all]"
如果您使用ESPNET1,请安装Chainer和Cupy。
pip install chainer==6.0.0 cupy==6.0.0 # [Option]
您可能需要根据每个任务安装一些软件包。我们在工具/安装程序上准备了各种安装脚本。
(ESPNET2)安装后,运行wandb login
并设置--use_wandb true
,以使用W&B启用跟踪运行。
转到Docker/并遵循说明。
感谢您抽出宝贵的时间来参加ESPNET!欢迎对ESPNET的任何贡献,并随时向问题提出任何问题或请求。如果这是您的第一个ESPNET贡献,请遵循贡献指南。
我们列出了主要ASR任务的字符错误率(CER)和单词错误率(WER)。
任务 | CER(%) | wer(%) | 预训练模型 |
---|---|---|---|
Aishell Dev/Test | 4.6/5.1 | N/A。 | 关联 |
ESPNET2 Aishell Dev/Test | 4.1/4.4 | N/A。 | 关联 |
常见的语音开发/测试 | 1.7/1.8 | 2.2/2.3 | 关联 |
CSJ eval1/eval2/eval3 | 5.7/3.8/4.2 | N/A。 | 关联 |
ESPNET2 CSJ eval1/eval2/eval3 | 4.5/3.3/3.6 | N/A。 | 关联 |
ESPNET2 GIGASPEECH DEV/TEST | N/A。 | 10.6/10.5 | 关联 |
HKUST DEV | 23.5 | N/A。 | 关联 |
ESPNET2 HKUST DEV | 21.2 | N/A。 | 关联 |
librispeech dev_clean/dev_other/test_clean/test_other | N/A。 | 1.9/4.9/2.1/4.9 | 关联 |
ESPNET2 librispeech dev_clean/dev_other/test_clean/test_other | 0.6/1.5/0.6/1.4 | 1.7/3.4/1.8/3.6 | 关联 |
总机(eval2000)callhm/swbd | N/A。 | 14.0/6.8 | 关联 |
ESPNET2总机(eval2000)callhm/swbd | N/A。 | 13.4/7.3 | 关联 |
TEDLIUM2开发/测试 | N/A。 | 8.6/7.2 | 关联 |
ESPNET2 TEDLIUM2开发/测试 | N/A。 | 7.3/7.1 | 关联 |
TEDLIUM3开发/测试 | N/A。 | 9.6/7.6 | 关联 |
WSJ Dev93/eval92 | 3.2/2.1 | 7.0/4.7 | N/A。 |
ESPNET2 WSJ DEV93/eval92 | 1.1/0.8 | 2.8/1.8 | 关联 |
请注意,通过使用宽网络(#UNITS = 1024)和RWTH报告的大型子词单元,CSJ,HKUST和LibrisPeech任务的性能得到了显着提高。
如果要检查其他食谱的结果,请检查egs/<name_of_recipe>/asr1/RESULTS.md
。
您可以使用预训练的模型在WAV文件中识别语音。转到食谱目录并运行utils/recog_wav.sh
如下:
# go to the recipe directory and source path of espnet tools
cd egs/tedlium2/asr1 && . ./path.sh
# let's recognize speech!
recog_wav.sh --models tedlium2.transformer.v1 example.wav
example.wav
是要识别的WAV文件。采样率必须与培训中使用的数据一致。
演示脚本中可用的预训练模型如下列出。
模型 | 笔记 |
---|---|
tedlium2.rnn.v1 | 基于基于CTC的VAD的流媒体解码 |
tedlium2.rnn.v2 | 基于基于CTC的VAD(批处理解码)的流媒体解码 |
tedlium2.transformer.v1 | 在TEDLIUM 2上训练的联合CTC注意变压器 |
tedlium3.transformer.v1 | 在TEDLIUM 3上训练的联合CTC注意变压器 |
librispeech.transformer.v1 | 在LibrisPeech上训练的联合CTC注意变压器 |
communvoice.transformer.v1 | 联合CTC注意变形金刚在常见的视觉上训练 |
csj.transformer.v1 | 在CSJ上训练的联合CTC注意变压器 |
csj.rnn.v1 | CTC关注VGGBLSTM在CSJ上训练 |
我们列出了WSJ0-2MIX上三个不同模型的结果,这是使用语音分离的最广泛使用的基准数据集之一。
模型 | 斯托 | sar | SDR | 先生 |
---|---|---|---|---|
TF掩蔽 | 0.89 | 11.40 | 10.24 | 18.04 |
conv-tasnet | 0.95 | 16.62 | 15.94 | 25.90 |
dprnn-tasnet | 0.96 | 18.82 | 18.29 | 28.92 |
它基于ESPNET2。预训练的模型可用于语音增强和语音分离任务。
语音分离流演示:
我们列出了主要ST任务的4克BLEU。
任务 | bleu | 预训练模型 |
---|---|---|
Fisher-Callhome西班牙Fisher_test(ES-> en) | 51.03 | 关联 |
Fisher-Callhome西班牙callhome_evltest(es-> en) | 20.44 | 关联 |
libri trans测试(en-> fr) | 16.70 | 关联 |
How2 dev5(en-> pt) | 45.68 | 关联 |
必须c tst-common(en-> de) | 22.91 | 关联 |
mboshi-french dev(fr-> mboshi) | 6.18 | N/A。 |
任务 | bleu | 预训练模型 |
---|---|---|
Fisher-Callhome西班牙Fisher_test(ES-> en) | 42.16 | N/A。 |
Fisher-Callhome西班牙callhome_evltest(es-> en) | 19.82 | N/A。 |
libri trans测试(en-> fr) | 16.96 | N/A。 |
How2 dev5(en-> pt) | 44.90 | N/A。 |
必须c tst-common(en-> de) | 23.65 | N/A。 |
如果要检查其他食谱的结果,请检查egs/<name_of_recipe>/st1/RESULTS.md
。
(新! )我们在Google Colab中进行了新的实时E2E-ST + TTS演示。请从以下按钮访问笔记本,并享受实时的语音到语音翻译!
您可以使用预训练的模型在WAV文件中翻译语音。转到食谱目录并运行utils/translate_wav.sh
,如下:
# Go to recipe directory and source path of espnet tools
cd egs/fisher_callhome_spanish/st1 && . ./path.sh
# download example wav file
wget -O - https://github.com/espnet/espnet/files/4100928/test.wav.tar.gz | tar zxvf -
# let's translate speech!
translate_wav.sh --models fisher_callhome_spanish.transformer.v1.es-en test.wav
其中test.wav
是要翻译的WAV文件。采样率必须与培训中使用的数据一致。
演示脚本中可用的预训练模型如下所示。
模型 | 笔记 |
---|---|
fisher_callhome_spanish.transformer.v1 | 在Fisher-Callhome西班牙语ES-> en上接受了Transformer-St |
任务 | bleu | 预训练模型 |
---|---|---|
Fisher-Callhome西班牙Fisher_test(ES-> en) | 61.45 | 关联 |
Fisher-Callhome西班牙callhome_evltest(es-> en) | 29.86 | 关联 |
libri trans测试(en-> fr) | 18.09 | 关联 |
How2 dev5(en-> pt) | 58.61 | 关联 |
必须c tst-common(en-> de) | 27.63 | 关联 |
IWSLT'14 test2014(en-> de) | 24.70 | 关联 |
IWSLT'14 test2014(de-> en) | 29.22 | 关联 |
IWSLT'14 test2014(de-> en) | 32.2 | 关联 |
IWSLT'16 test2014(en-> de) | 24.05 | 关联 |
IWSLT'16 test2014(de-> en) | 29.13 | 关联 |
您可以在以下URL中收听生成的样品。
请注意,在这一代中,我们使用griffin-lim(
wav/
)和平行wavegan(wav_pwg/
)。
您可以通过espnet_model_zoo
下载预训练的模型。
您可以通过kan-bayashi/ParallelWaveGAN
下载预训练的声音编码器。
注意:我们正在基于TTS的基于ESPNET2的开发。请检查上述ESPNET2结果中的最新结果。
您可以在Demo HP ESPNET-TTS样本中收听我们的样品。在这里,我们列出了一些著名的:
您可以下载所有预训练的型号和生成的样本:
请注意,在生成的样品中,我们使用以下辅助机:griffin-lim( GL ),WaveNet Vocoder( WaveNet ),Parallel Wavegan( Parallelwavegan )和Melgan( Melgan )。神经声码器基于以下存储库。
如果您想构建自己的神经声码器,请检查上述存储库。 Kan-Bayashi/Parallelwavegan提供了有关如何用神经声码器来解码ESPNET-TTS模型功能的手册。请检查。
在这里,我们列出了所有预先训练的神经声码器。请下载并享受高质量演讲的一代!
模型链接 | 朗 | FS [Hz] | MEL范围[Hz] | FFT / Shift / Win [PT] | 型号类型 |
---|---|---|---|---|---|
ljspeech.wavenet.softmax.ns.v1 | en | 22.05k | 没有任何 | 1024 /256 /无 | Softmax Wavenet |
ljspeech.wavenet.mol.v1 | en | 22.05k | 没有任何 | 1024 /256 /无 | 摩尔维氏 |
ljspeech.parallel_wavegan.v1 | en | 22.05k | 没有任何 | 1024 /256 /无 | 平行波甘 |
ljspeech.wavenet.mol.v2 | en | 22.05k | 80-7600 | 1024 /256 /无 | 摩尔维氏 |
ljspeech.parallel_wavegan.v2 | en | 22.05k | 80-7600 | 1024 /256 /无 | 平行波甘 |
ljspeech.melgan.v1 | en | 22.05k | 80-7600 | 1024 /256 /无 | 梅尔根 |
ljspeech.melgan.v3 | en | 22.05k | 80-7600 | 1024 /256 /无 | 梅尔根 |
libritts.wavenet.mol.v1 | en | 24k | 没有任何 | 1024 /256 /无 | 摩尔维氏 |
jsut.wavenet.mol.v1 | JP | 24k | 80-7600 | 2048/300/1200 | 摩尔维氏 |
jsut.parallel_wavegan.v1 | JP | 24k | 80-7600 | 2048/300/1200 | 平行波甘 |
csmsc.wavenet.mol.v1 | ZH | 24k | 80-7600 | 2048/300/1200 | 摩尔维氏 |
csmsc.parallel_wavegan.v1 | ZH | 24k | 80-7600 | 2048/300/1200 | 平行波甘 |
如果您想使用上述预训练的声音编码器,请与功能设置完全匹配。
您可以在Google Colab中尝试实时演示。请从以下按钮访问笔记本,并享受实时综合!
演示中有英语,日语和普通话模型。
注意:我们正在基于TTS的基于ESPNET2的开发。请检查上述ESPNET2演示中的最新演示。
您可以在Google Colab中尝试实时演示。请从以下按钮访问笔记本,并享受实时综合。
我们还提供了一个shell脚本来执行综合。转到食谱目录并运行utils/synth_wav.sh
,如下:
# Go to recipe directory and source path of espnet tools
cd egs/ljspeech/tts1 && . ./path.sh
# We use an upper-case char sequence for the default model.
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example.txt
# let's synthesize speech!
synth_wav.sh example.txt
# Also, you can use multiple sentences
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example_multi.txt
echo " TEXT TO SPEECH IS A TECHNIQUE TO CONVERT TEXT INTO SPEECH. " >> example_multi.txt
synth_wav.sh example_multi.txt
您可以按以下方式更改预训练的模型:
synth_wav.sh --models ljspeech.fastspeech.v1 example.txt
波形合成是使用Griffin-Lim算法和神经声码器(WaveNet和Parallelwavegan)进行的。您可以如下更改预训练的Vocoder模型:
synth_wav.sh --vocoder_models ljspeech.wavenet.mol.v1 example.txt
Wavenet Vocoder提供了非常高质量的演讲,但需要时间才能产生。
通过--help
查看更多详细信息或可用模型。
synth_wav.sh --help
您可以在演示网页上收听一些示例。
语音转换挑战2020(VCC2020)采用ESPNET来构建基于端到端的基线系统。在VCC2020中,该目标是/跨语性非平行VC。您可以在此处下载Cascade ASR+TTS基线系统的转换后的样本。
我们使用原始数据集论文中报告的指标列出了各种SLU任务和数据集上的性能
任务 | 数据集 | 公制 | 结果 | 预训练模型 |
---|---|---|---|---|
意图分类 | 泥浆 | ACC | 86.3 | 关联 |
意图分类 | FSC | ACC | 99.6 | 关联 |
意图分类 | FSC看不见的扬声器套装 | ACC | 98.6 | 关联 |
意图分类 | FSC看不见的话语集 | ACC | 86.4 | 关联 |
意图分类 | FSC挑战发言人套装 | ACC | 97.5 | 关联 |
意图分类 | FSC挑战说法集 | ACC | 78.5 | 关联 |
意图分类 | 剪 | F1 | 91.7 | 关联 |
意图分类 | grabo(nl) | ACC | 97.2 | 关联 |
意图分类 | 猫SLU地图(Zn) | ACC | 78.9 | 关联 |
意图分类 | Google语音命令 | ACC | 98.4 | 关联 |
插槽填充 | 泥浆 | slu-f1 | 71.9 | 关联 |
对话行为分类 | 总机 | ACC | 67.5 | 关联 |
对话行为分类 | JDCinal(JP) | ACC | 67.4 | 关联 |
情绪识别 | Iemocap | ACC | 69.4 | 关联 |
情绪识别 | swbd_sentiment | 宏F1 | 61.4 | 关联 |
情绪识别 | slue_voxceleb | 宏F1 | 44.0 | 关联 |
如果要检查其他食谱的结果,请检查egs2/<name_of_recipe>/asr1/RESULTS.md
。
CTC细分确定音频文件中的话语段。对齐的话语段构成了语音数据集的标签。
作为演示,我们使用示例脚本utils/asr_align_wav.sh
将音频文件ctc_align_test.wav
中的话语的开始和结尾对齐。为了准备,设置一个数据目录:
cd egs/tedlium2/align1/
# data directory
align_dir=data/demo
mkdir -p ${align_dir}
# wav file
base=ctc_align_test
wav=../../../test_utils/ ${base} .wav
# recipe files
echo " batchsize: 0 " > ${align_dir} /align.yaml
cat << EOF > ${align_dir} /utt_text
${base} THE SALE OF THE HOTELS
${base} IS PART OF HOLIDAY'S STRATEGY
${base} TO SELL OFF ASSETS
${base} AND CONCENTRATE
${base} ON PROPERTY MANAGEMENT
EOF
在这里, utt_text
是包含话语列表的文件。选择一个预先训练的ASR模型,该模型包括CTC层以查找话语段:
# pre-trained ASR model
model=wsj.transformer_small.v1
mkdir ./conf && cp ../../wsj/asr1/conf/no_preprocess.yaml ./conf
../../../utils/asr_align_wav.sh
--models ${model}
--align_dir ${align_dir}
--align_config ${align_dir} /align.yaml
${wav} ${align_dir} /utt_text
段写入aligned_segments
,作为文件/话语名称的列表,在几秒钟内的话语开始和结束时间以及置信度得分。置信度得分是对数空间中的概率,表明话语对齐的程度。如果需要,请删除不良话语:
min_confidence_score=-5
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' ${align_dir} /aligned_segments
演示脚本utils/ctc_align_wav.sh
使用已预先训练的ASR模型(有关更多模型,请参见上面的列表)。建议使用与基于RNN的编码器(例如BLSTMP)对齐大型音频文件的模型;而不是在更长的音频数据上使用具有高内存消耗的变压器模型。音频的采样率必须与训练中使用的数据的样本率一致;如果需要,请使用sox
进行调整。一个完整的示例配方在egs/tedlium2/align1/
中。
CTC细分确定音频文件中的话语段。对齐的话语段构成了语音数据集的标签。
作为演示,我们在音频文件ctc_align_test.wav
中的话语开始和结束。这可以直接从Python命令行或使用脚本espnet2/bin/asr_align.py
完成。
从python命令行接口:
# load a model with character tokens
from espnet_model_zoo . downloader import ModelDownloader
d = ModelDownloader ( cachedir = "./modelcache" )
wsjmodel = d . download_and_unpack ( "kamo-naoyuki/wsj" )
# load the example file included in the ESPnet repository
import soundfile
speech , rate = soundfile . read ( "./test_utils/ctc_align_test.wav" )
# CTC segmentation
from espnet2 . bin . asr_align import CTCSegmentation
aligner = CTCSegmentation ( ** wsjmodel , fs = rate )
text = """
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE ON PROPERTY MANAGEMENT
"""
segments = aligner ( speech , text )
print ( segments )
# utt1 utt 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 utt 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 utt 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 utt 4.20 6.10 -0.4899 AND CONCENTRATE ON PROPERTY MANAGEMENT
对齐还可以与文本的片段一起使用。为此,设置gratis_blank
选项,该选项允许跳过无关的音频部分而不会受到惩罚。也可以通过将kaldi_style_text
设置为false,在每行的开头省略每行的话名称。
aligner . set_config ( gratis_blank = True , kaldi_style_text = False )
text = [ "SALE OF THE HOTELS" , "PROPERTY MANAGEMENT" ]
segments = aligner ( speech , text )
print ( segments )
# utt_0000 utt 0.37 1.72 -2.0651 SALE OF THE HOTELS
# utt_0001 utt 4.70 6.10 -5.0566 PROPERTY MANAGEMENT
脚本espnet2/bin/asr_align.py
使用类似的接口。对齐话语:
# ASR model and config files from pre-trained model (e.g., from cachedir):
asr_config= < path-to-model > /config.yaml
asr_model= < path-to-model > /valid. * best.pth
# prepare the text file
wav= " test_utils/ctc_align_test.wav "
text= " test_utils/ctc_align_text.txt "
cat << EOF > ${text}
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE
utt5 ON PROPERTY MANAGEMENT
EOF
# obtain alignments:
python espnet2/bin/asr_align.py --asr_train_config ${asr_config} --asr_model_file ${asr_model} --audio ${wav} --text ${text}
# utt1 ctc_align_test 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 ctc_align_test 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 ctc_align_test 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 ctc_align_test 4.20 4.97 -0.6017 AND CONCENTRATE
# utt5 ctc_align_test 4.97 6.10 -0.3477 ON PROPERTY MANAGEMENT
脚本的输出可以通过添加参数--output segments
将其重定向到segments
文件。每行都包含文件/话语名称,在几秒钟内的话语开始和结束时间以及置信度得分;还可以选择的话语文字。置信度得分是对数空间中的概率,表明话语对齐的程度。如果需要,请删除不良话语:
min_confidence_score=-7
# here, we assume that the output was written to the file `segments`
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' segments
有关更多信息,请参见模块文档。建议使用与基于RNN的编码器(例如BLSTMP)对齐大型音频文件的模型;而不是使用在更长的音频数据上具有高内存消耗的变压器模型。音频的采样率必须与训练中使用的数据的样本率一致;如果需要,请使用sox
进行调整。
另外,如果我们准备一个令牌列表,而不是text
文件中的话语列表,则可以使用此工具提供令牌级的细分信息。请参阅#4278(评论)中的讨论。
@inproceedings{watanabe2018espnet,
author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson {Enrique Yalta Soplin} and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
title={{ESPnet}: End-to-End Speech Processing Toolkit},
year={2018},
booktitle={Proceedings of Interspeech},
pages={2207--2211},
doi={10.21437/Interspeech.2018-1456},
url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={7654--7658},
year={2020},
organization={IEEE}
}
@inproceedings{inaguma-etal-2020-espnet,
title = "{ESP}net-{ST}: All-in-One Speech Translation Toolkit",
author = "Inaguma, Hirofumi and
Kiyono, Shun and
Duh, Kevin and
Karita, Shigeki and
Yalta, Nelson and
Hayashi, Tomoki and
Watanabe, Shinji",
booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.acl-demos.34",
pages = "302--311",
}
@article{hayashi2021espnet2,
title={{ESP}net2-{TTS}: Extending the edge of {TTS} research},
author={Hayashi, Tomoki and Yamamoto, Ryuichi and Yoshimura, Takenori and Wu, Peter and Shi, Jiatong and Saeki, Takaaki and Ju, Yooncheol and Yasuda, Yusuke and Takamichi, Shinnosuke and Watanabe, Shinji},
journal={arXiv preprint arXiv:2110.07840},
year={2021}
}
@inproceedings{li2020espnet,
title={{ESPnet-SE}: End-to-End Speech Enhancement and Separation Toolkit Designed for {ASR} Integration},
author={Chenda Li and Jing Shi and Wangyou Zhang and Aswin Shanmugam Subramanian and Xuankai Chang and Naoyuki Kamo and Moto Hira and Tomoki Hayashi and Christoph Boeddeker and Zhuo Chen and Shinji Watanabe},
booktitle={Proceedings of IEEE Spoken Language Technology Workshop (SLT)},
pages={785--792},
year={2021},
organization={IEEE},
}
@inproceedings{arora2021espnet,
title={{ESPnet-SLU}: Advancing Spoken Language Understanding through ESPnet},
author={Arora, Siddhant and Dalmia, Siddharth and Denisov, Pavel and Chang, Xuankai and Ueda, Yushi and Peng, Yifan and Zhang, Yuekai and Kumar, Sujay and Ganesan, Karthik and Yan, Brian and others},
booktitle={ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={7167--7171},
year={2022},
organization={IEEE}
}
@inproceedings{shi2022muskits,
author={Shi, Jiatong and Guo, Shuai and Qian, Tao and Huo, Nan and Hayashi, Tomoki and Wu, Yuning and Xu, Frank and Chang, Xuankai and Li, Huazhe and Wu, Peter and Watanabe, Shinji and Jin, Qin},
title={{Muskits}: an End-to-End Music Processing Toolkit for Singing Voice Synthesis},
year={2022},
booktitle={Proceedings of Interspeech},
pages={4277-4281},
url={https://www.isca-speech.org/archive/pdfs/interspeech_2022/shi22d_interspeech.pdf}
}
@inproceedings{lu22c_interspeech,
author={Yen-Ju Lu and Xuankai Chang and Chenda Li and Wangyou Zhang and Samuele Cornell and Zhaoheng Ni and Yoshiki Masuyama and Brian Yan and Robin Scheibler and Zhong-Qiu Wang and Yu Tsao and Yanmin Qian and Shinji Watanabe},
title={{ESPnet-SE++: Speech Enhancement for Robust Speech Recognition, Translation, and Understanding}},
year=2022,
booktitle={Proc. Interspeech 2022},
pages={5458--5462},
}
@inproceedings{gao2023euro,
title={{EURO: ESP}net unsupervised {ASR} open-source toolkit},
author={Gao, Dongji and Shi, Jiatong and Chuang, Shun-Po and Garcia, Leibny Paola and Lee, Hung-yi and Watanabe, Shinji and Khudanpur, Sanjeev},
booktitle={ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={1--5},
year={2023},
organization={IEEE}
}
@inproceedings{peng2023reproducing,
title={Reproducing {W}hisper-style training using an open-source toolkit and publicly available data},
author={Peng, Yifan and Tian, Jinchuan and Yan, Brian and Berrebbi, Dan and Chang, Xuankai and Li, Xinjian and Shi, Jiatong and Arora, Siddhant and Chen, William and Sharma, Roshan and others},
booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
pages={1--8},
year={2023},
organization={IEEE}
}
@inproceedings{sharma2023espnet,
title={ESPnet-{SUMM}: Introducing a novel large dataset, toolkit, and a cross-corpora evaluation of speech summarization systems},
author={Sharma, Roshan and Chen, William and Kano, Takatomo and Sharma, Ruchira and Arora, Siddhant and Watanabe, Shinji and Ogawa, Atsunori and Delcroix, Marc and Singh, Rita and Raj, Bhiksha},
booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
pages={1--8},
year={2023},
organization={IEEE}
}
@article{jung2024espnet,
title={{ESPnet-SPK}: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models},
author={Jung, Jee-weon and Zhang, Wangyou and Shi, Jiatong and Aldeneh, Zakaria and Higuchi, Takuya and Theobald, Barry-John and Abdelaziz, Ahmed Hussen and Watanabe, Shinji},
journal={Proc. Interspeech 2024},
year={2024}
}
@inproceedings{yan-etal-2023-espnet,
title = "{ESP}net-{ST}-v2: Multipurpose Spoken Language Translation Toolkit",
author = "Yan, Brian and
Shi, Jiatong and
Tang, Yun and
Inaguma, Hirofumi and
Peng, Yifan and
Dalmia, Siddharth and
Pol{'a}k, Peter and
Fernandes, Patrick and
Berrebbi, Dan and
Hayashi, Tomoki and
Zhang, Xiaohui and
Ni, Zhaoheng and
Hira, Moto and
Maiti, Soumi and
Pino, Juan and
Watanabe, Shinji",
booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)",
year = "2023",
publisher = "Association for Computational Linguistics",
pages = "400--411",
}