文檔|示例|示例(ESPNET2) | Docker |筆記本
ESPNET是一種端到端的語音處理工具包,涵蓋端到端語音識別,文本到語音,語音翻譯,語音增強,言語診斷,口語理解等等。 ESPNET使用Pytorch作為深度學習引擎,還遵循Kaldi樣式數據處理,功能提取/格式以及配方為各種語音處理實驗提供完整的設置。
ASR
配方的支持號碼(WSJ,總機,Chime-4/5,LibrisPeech,TED,CSJ,AMI,HKUST,VOXFORGE,VOXFORGE,REVERB,GIGASPEECH等)TTS
食譜的數字ST
食譜的支持數(Fisher-Callhome西班牙語,Libri-Trans,IWSLT'18,HOW2,RESS-C,Mboshi-French等)MT
食譜的支持號碼(IWSLT'14,IWSLT'16,上述ST食譜等)SLU
食譜的支持號碼(Catslu-Maps,FSC,Grabo,Iemocap,Jdcinal,snips,slurp,swbd-da等)SE/SS
食譜的支持編號(DNS-IS2020,Librimix,SMS-WSJ,VCTK-NoisyReverb,Wham!,Whamr!,WSJ-2Mix等)請參閱教程頁面以獲取完整的文檔。
frontend
設置為s3prl
frontend_conf
設置為相應的名稱來選擇任何上游模型。示範
示範
要培訓神經聲碼器,請檢查以下存儲庫:
示範
請參閱ESPNET2。
如果您打算進行完整的實驗,包括DNN培訓,請參閱安裝。
如果您只需要Python模塊:
# We recommend you install PyTorch before installing espnet following https://pytorch.org/get-started/locally/
pip install espnet
# To install the latest
# pip install git+https://github.com/espnet/espnet
# To install additional packages
# pip install "espnet[all]"
如果您使用ESPNET1,請安裝Chainer和Cupy。
pip install chainer==6.0.0 cupy==6.0.0 # [Option]
您可能需要根據每個任務安裝一些軟件包。我們在工具/安裝程序上準備了各種安裝腳本。
(ESPNET2)安裝後,運行wandb login
並設置--use_wandb true
,以使用W&B啟用跟踪運行。
轉到Docker/並遵循說明。
感謝您抽出寶貴的時間來參加ESPNET!歡迎對ESPNET的任何貢獻,並隨時向問題提出任何問題或請求。如果這是您的第一個ESPNET貢獻,請遵循貢獻指南。
我們列出了主要ASR任務的字符錯誤率(CER)和單詞錯誤率(WER)。
任務 | CER(%) | wer(%) | 預訓練模型 |
---|---|---|---|
Aishell Dev/Test | 4.6/5.1 | N/A。 | 關聯 |
ESPNET2 Aishell Dev/Test | 4.1/4.4 | N/A。 | 關聯 |
常見的語音開發/測試 | 1.7/1.8 | 2.2/2.3 | 關聯 |
CSJ eval1/eval2/eval3 | 5.7/3.8/4.2 | N/A。 | 關聯 |
ESPNET2 CSJ eval1/eval2/eval3 | 4.5/3.3/3.6 | N/A。 | 關聯 |
ESPNET2 GIGASPEECH DEV/TEST | N/A。 | 10.6/10.5 | 關聯 |
HKUST DEV | 23.5 | N/A。 | 關聯 |
ESPNET2 HKUST DEV | 21.2 | N/A。 | 關聯 |
librispeech dev_clean/dev_other/test_clean/test_other | N/A。 | 1.9/4.9/2.1/4.9 | 關聯 |
ESPNET2 librispeech dev_clean/dev_other/test_clean/test_other | 0.6/1.5/0.6/1.4 | 1.7/3.4/1.8/3.6 | 關聯 |
總機(eval2000)callhm/swbd | N/A。 | 14.0/6.8 | 關聯 |
ESPNET2總機(eval2000)callhm/swbd | N/A。 | 13.4/7.3 | 關聯 |
TEDLIUM2開發/測試 | N/A。 | 8.6/7.2 | 關聯 |
ESPNET2 TEDLIUM2開發/測試 | N/A。 | 7.3/7.1 | 關聯 |
TEDLIUM3開發/測試 | N/A。 | 9.6/7.6 | 關聯 |
WSJ Dev93/eval92 | 3.2/2.1 | 7.0/4.7 | N/A。 |
ESPNET2 WSJ DEV93/eval92 | 1.1/0.8 | 2.8/1.8 | 關聯 |
請注意,通過使用寬網絡(#UNITS = 1024)和RWTH報告的大型子詞單元,CSJ,HKUST和LibrisPeech任務的性能得到了顯著提高。
如果要檢查其他食譜的結果,請檢查egs/<name_of_recipe>/asr1/RESULTS.md
。
您可以使用預訓練的模型在WAV文件中識別語音。轉到食譜目錄並運行utils/recog_wav.sh
如下:
# go to the recipe directory and source path of espnet tools
cd egs/tedlium2/asr1 && . ./path.sh
# let's recognize speech!
recog_wav.sh --models tedlium2.transformer.v1 example.wav
example.wav
是要識別的WAV文件。採樣率必須與培訓中使用的數據一致。
演示腳本中可用的預訓練模型如下列出。
模型 | 筆記 |
---|---|
tedlium2.rnn.v1 | 基於基於CTC的VAD的流媒體解碼 |
tedlium2.rnn.v2 | 基於基於CTC的VAD(批處理解碼)的流媒體解碼 |
tedlium2.transformer.v1 | 在TEDLIUM 2上訓練的聯合CTC注意變壓器 |
tedlium3.transformer.v1 | 在TEDLIUM 3上訓練的聯合CTC注意變壓器 |
librispeech.transformer.v1 | 在LibrisPeech上訓練的聯合CTC注意變壓器 |
communvoice.transformer.v1 | 聯合CTC注意變形金剛在常見的視覺上訓練 |
csj.transformer.v1 | 在CSJ上訓練的聯合CTC注意變壓器 |
csj.rnn.v1 | CTC關注VGGBLSTM在CSJ上訓練 |
我們列出了WSJ0-2MIX上三個不同模型的結果,這是使用語音分離的最廣泛使用的基準數據集之一。
模型 | 斯托 | sar | SDR | 先生 |
---|---|---|---|---|
TF掩蔽 | 0.89 | 11.40 | 10.24 | 18.04 |
conv-tasnet | 0.95 | 16.62 | 15.94 | 25.90 |
dprnn-tasnet | 0.96 | 18.82 | 18.29 | 28.92 |
它基於ESPNET2。預訓練的模型可用於語音增強和語音分離任務。
語音分離流演示:
我們列出了主要ST任務的4克BLEU。
任務 | bleu | 預訓練模型 |
---|---|---|
Fisher-Callhome西班牙Fisher_test(ES-> en) | 51.03 | 關聯 |
Fisher-Callhome西班牙callhome_evltest(es-> en) | 20.44 | 關聯 |
libri trans測試(en-> fr) | 16.70 | 關聯 |
How2 dev5(en-> pt) | 45.68 | 關聯 |
必須c tst-common(en-> de) | 22.91 | 關聯 |
mboshi-french dev(fr-> mboshi) | 6.18 | N/A。 |
任務 | bleu | 預訓練模型 |
---|---|---|
Fisher-Callhome西班牙Fisher_test(ES-> en) | 42.16 | N/A。 |
Fisher-Callhome西班牙callhome_evltest(es-> en) | 19.82 | N/A。 |
libri trans測試(en-> fr) | 16.96 | N/A。 |
How2 dev5(en-> pt) | 44.90 | N/A。 |
必須c tst-common(en-> de) | 23.65 | N/A。 |
如果要檢查其他食譜的結果,請檢查egs/<name_of_recipe>/st1/RESULTS.md
。
(新! )我們在Google Colab中進行了新的實時E2E-ST + TTS演示。請從以下按鈕訪問筆記本,並享受實時的語音到語音翻譯!
您可以使用預訓練的模型在WAV文件中翻譯語音。轉到食譜目錄並運行utils/translate_wav.sh
,如下:
# Go to recipe directory and source path of espnet tools
cd egs/fisher_callhome_spanish/st1 && . ./path.sh
# download example wav file
wget -O - https://github.com/espnet/espnet/files/4100928/test.wav.tar.gz | tar zxvf -
# let's translate speech!
translate_wav.sh --models fisher_callhome_spanish.transformer.v1.es-en test.wav
其中test.wav
是要翻譯的WAV文件。採樣率必須與培訓中使用的數據一致。
演示腳本中可用的預訓練模型如下所示。
模型 | 筆記 |
---|---|
fisher_callhome_spanish.transformer.v1 | 在Fisher-Callhome西班牙語ES-> en上接受了Transformer-St |
任務 | bleu | 預訓練模型 |
---|---|---|
Fisher-Callhome西班牙Fisher_test(ES-> en) | 61.45 | 關聯 |
Fisher-Callhome西班牙callhome_evltest(es-> en) | 29.86 | 關聯 |
libri trans測試(en-> fr) | 18.09 | 關聯 |
How2 dev5(en-> pt) | 58.61 | 關聯 |
必須c tst-common(en-> de) | 27.63 | 關聯 |
IWSLT'14 test2014(en-> de) | 24.70 | 關聯 |
IWSLT'14 test2014(de-> en) | 29.22 | 關聯 |
IWSLT'14 test2014(de-> en) | 32.2 | 關聯 |
IWSLT'16 test2014(en-> de) | 24.05 | 關聯 |
IWSLT'16 test2014(de-> en) | 29.13 | 關聯 |
您可以在以下URL中收聽生成的樣品。
請注意,在這一代中,我們使用griffin-lim(
wav/
)和平行wavegan(wav_pwg/
)。
您可以通過espnet_model_zoo
下載預訓練的模型。
您可以通過kan-bayashi/ParallelWaveGAN
下載預訓練的聲音編碼器。
注意:我們正在基於TTS的基於ESPNET2的開發。請檢查上述ESPNET2結果中的最新結果。
您可以在Demo HP ESPNET-TTS樣本中收聽我們的樣品。在這裡,我們列出了一些著名的:
您可以下載所有預訓練的型號和生成的樣本:
請注意,在生成的樣品中,我們使用以下輔助機:griffin-lim( GL ),WaveNet Vocoder( WaveNet ),Parallel Wavegan( Parallelwavegan )和Melgan( Melgan )。神經聲碼器基於以下存儲庫。
如果您想構建自己的神經聲碼器,請檢查上述存儲庫。 Kan-Bayashi/Parallelwavegan提供了有關如何用神經聲碼器來解碼ESPNET-TTS模型功能的手冊。請檢查。
在這裡,我們列出了所有預先訓練的神經聲碼器。請下載並享受高質量演講的一代!
模型鏈接 | 朗 | FS [Hz] | MEL範圍[Hz] | FFT / Shift / Win [PT] | 型號類型 |
---|---|---|---|---|---|
ljspeech.wavenet.softmax.ns.v1 | en | 22.05k | 沒有任何 | 1024 /256 /無 | Softmax Wavenet |
ljspeech.wavenet.mol.v1 | en | 22.05k | 沒有任何 | 1024 /256 /無 | 摩爾維氏 |
ljspeech.parallel_wavegan.v1 | en | 22.05k | 沒有任何 | 1024 /256 /無 | 平行波甘 |
ljspeech.wavenet.mol.v2 | en | 22.05k | 80-7600 | 1024 /256 /無 | 摩爾維氏 |
ljspeech.parallel_wavegan.v2 | en | 22.05k | 80-7600 | 1024 /256 /無 | 平行波甘 |
ljspeech.melgan.v1 | en | 22.05k | 80-7600 | 1024 /256 /無 | 梅爾根 |
ljspeech.melgan.v3 | en | 22.05k | 80-7600 | 1024 /256 /無 | 梅爾根 |
libritts.wavenet.mol.v1 | en | 24k | 沒有任何 | 1024 /256 /無 | 摩爾維氏 |
jsut.wavenet.mol.v1 | JP | 24k | 80-7600 | 2048/300/1200 | 摩爾維氏 |
jsut.parallel_wavegan.v1 | JP | 24k | 80-7600 | 2048/300/1200 | 平行波甘 |
csmsc.wavenet.mol.v1 | ZH | 24k | 80-7600 | 2048/300/1200 | 摩爾維氏 |
csmsc.parallel_wavegan.v1 | ZH | 24k | 80-7600 | 2048/300/1200 | 平行波甘 |
如果您想使用上述預訓練的聲音編碼器,請與功能設置完全匹配。
您可以在Google Colab中嘗試實時演示。請從以下按鈕訪問筆記本,並享受實時綜合!
演示中有英語,日語和普通話模型。
注意:我們正在基於TTS的基於ESPNET2的開發。請檢查上述ESPNET2演示中的最新演示。
您可以在Google Colab中嘗試實時演示。請從以下按鈕訪問筆記本,並享受實時綜合。
我們還提供了一個shell腳本來執行綜合。轉到食譜目錄並運行utils/synth_wav.sh
,如下:
# Go to recipe directory and source path of espnet tools
cd egs/ljspeech/tts1 && . ./path.sh
# We use an upper-case char sequence for the default model.
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example.txt
# let's synthesize speech!
synth_wav.sh example.txt
# Also, you can use multiple sentences
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example_multi.txt
echo " TEXT TO SPEECH IS A TECHNIQUE TO CONVERT TEXT INTO SPEECH. " >> example_multi.txt
synth_wav.sh example_multi.txt
您可以按以下方式更改預訓練的模型:
synth_wav.sh --models ljspeech.fastspeech.v1 example.txt
波形合成是使用Griffin-Lim算法和神經聲碼器(WaveNet和Parallelwavegan)進行的。您可以如下更改預訓練的Vocoder模型:
synth_wav.sh --vocoder_models ljspeech.wavenet.mol.v1 example.txt
Wavenet Vocoder提供了非常高質量的演講,但需要時間才能產生。
通過--help
查看更多詳細信息或可用模型。
synth_wav.sh --help
您可以在演示網頁上收聽一些示例。
語音轉換挑戰2020(VCC2020)採用ESPNET來構建基於端到端的基線系統。在VCC2020中,該目標是/跨語性非平行VC。您可以在此處下載Cascade ASR+TTS基線系統的轉換後的樣本。
我們使用原始數據集論文中報告的指標列出了各種SLU任務和數據集上的性能
任務 | 數據集 | 公制 | 結果 | 預訓練模型 |
---|---|---|---|---|
意圖分類 | 泥漿 | ACC | 86.3 | 關聯 |
意圖分類 | FSC | ACC | 99.6 | 關聯 |
意圖分類 | FSC看不見的揚聲器套裝 | ACC | 98.6 | 關聯 |
意圖分類 | FSC看不見的話語集 | ACC | 86.4 | 關聯 |
意圖分類 | FSC挑戰發言人套裝 | ACC | 97.5 | 關聯 |
意圖分類 | FSC挑戰說法集 | ACC | 78.5 | 關聯 |
意圖分類 | 剪 | F1 | 91.7 | 關聯 |
意圖分類 | grabo(nl) | ACC | 97.2 | 關聯 |
意圖分類 | 貓SLU地圖(Zn) | ACC | 78.9 | 關聯 |
意圖分類 | Google語音命令 | ACC | 98.4 | 關聯 |
插槽填充 | 泥漿 | slu-f1 | 71.9 | 關聯 |
對話行為分類 | 總機 | ACC | 67.5 | 關聯 |
對話行為分類 | JDCinal(JP) | ACC | 67.4 | 關聯 |
情緒識別 | Iemocap | ACC | 69.4 | 關聯 |
情緒識別 | swbd_sentiment | 宏F1 | 61.4 | 關聯 |
情緒識別 | slue_voxceleb | 宏F1 | 44.0 | 關聯 |
如果要檢查其他食譜的結果,請檢查egs2/<name_of_recipe>/asr1/RESULTS.md
。
CTC細分確定音頻文件中的話語段。對齊的話語段構成了語音數據集的標籤。
作為演示,我們使用示例腳本utils/asr_align_wav.sh
將音頻文件ctc_align_test.wav
中的話語的開始和結尾對齊。為了準備,設置一個數據目錄:
cd egs/tedlium2/align1/
# data directory
align_dir=data/demo
mkdir -p ${align_dir}
# wav file
base=ctc_align_test
wav=../../../test_utils/ ${base} .wav
# recipe files
echo " batchsize: 0 " > ${align_dir} /align.yaml
cat << EOF > ${align_dir} /utt_text
${base} THE SALE OF THE HOTELS
${base} IS PART OF HOLIDAY'S STRATEGY
${base} TO SELL OFF ASSETS
${base} AND CONCENTRATE
${base} ON PROPERTY MANAGEMENT
EOF
在這裡, utt_text
是包含話語列表的文件。選擇一個預先訓練的ASR模型,該模型包括CTC層以查找話語段:
# pre-trained ASR model
model=wsj.transformer_small.v1
mkdir ./conf && cp ../../wsj/asr1/conf/no_preprocess.yaml ./conf
../../../utils/asr_align_wav.sh
--models ${model}
--align_dir ${align_dir}
--align_config ${align_dir} /align.yaml
${wav} ${align_dir} /utt_text
段寫入aligned_segments
,作為文件/話語名稱的列表,在幾秒鐘內的話語開始和結束時間以及置信度得分。置信度得分是對數空間中的概率,表明話語對齊的程度。如果需要,請刪除不良話語:
min_confidence_score=-5
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' ${align_dir} /aligned_segments
演示腳本utils/ctc_align_wav.sh
使用已預先訓練的ASR模型(有關更多模型,請參見上面的列表)。建議使用與基於RNN的編碼器(例如BLSTMP)對齊大型音頻文件的模型;而不是在更長的音頻數據上使用具有高內存消耗的變壓器模型。音頻的採樣率必須與訓練中使用的數據的樣本率一致;如果需要,請使用sox
進行調整。一個完整的示例配方在egs/tedlium2/align1/
中。
CTC細分確定音頻文件中的話語段。對齊的話語段構成了語音數據集的標籤。
作為演示,我們在音頻文件ctc_align_test.wav
中的話語開始和結束。這可以直接從Python命令行或使用腳本espnet2/bin/asr_align.py
完成。
從python命令行接口:
# load a model with character tokens
from espnet_model_zoo . downloader import ModelDownloader
d = ModelDownloader ( cachedir = "./modelcache" )
wsjmodel = d . download_and_unpack ( "kamo-naoyuki/wsj" )
# load the example file included in the ESPnet repository
import soundfile
speech , rate = soundfile . read ( "./test_utils/ctc_align_test.wav" )
# CTC segmentation
from espnet2 . bin . asr_align import CTCSegmentation
aligner = CTCSegmentation ( ** wsjmodel , fs = rate )
text = """
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE ON PROPERTY MANAGEMENT
"""
segments = aligner ( speech , text )
print ( segments )
# utt1 utt 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 utt 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 utt 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 utt 4.20 6.10 -0.4899 AND CONCENTRATE ON PROPERTY MANAGEMENT
對齊還可以與文本的片段一起使用。為此,設置gratis_blank
選項,該選項允許跳過無關的音頻部分而不會受到懲罰。也可以通過將kaldi_style_text
設置為false,在每行的開頭省略每行的話名稱。
aligner . set_config ( gratis_blank = True , kaldi_style_text = False )
text = [ "SALE OF THE HOTELS" , "PROPERTY MANAGEMENT" ]
segments = aligner ( speech , text )
print ( segments )
# utt_0000 utt 0.37 1.72 -2.0651 SALE OF THE HOTELS
# utt_0001 utt 4.70 6.10 -5.0566 PROPERTY MANAGEMENT
腳本espnet2/bin/asr_align.py
使用類似的接口。對齊話語:
# ASR model and config files from pre-trained model (e.g., from cachedir):
asr_config= < path-to-model > /config.yaml
asr_model= < path-to-model > /valid. * best.pth
# prepare the text file
wav= " test_utils/ctc_align_test.wav "
text= " test_utils/ctc_align_text.txt "
cat << EOF > ${text}
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE
utt5 ON PROPERTY MANAGEMENT
EOF
# obtain alignments:
python espnet2/bin/asr_align.py --asr_train_config ${asr_config} --asr_model_file ${asr_model} --audio ${wav} --text ${text}
# utt1 ctc_align_test 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 ctc_align_test 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 ctc_align_test 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 ctc_align_test 4.20 4.97 -0.6017 AND CONCENTRATE
# utt5 ctc_align_test 4.97 6.10 -0.3477 ON PROPERTY MANAGEMENT
腳本的輸出可以通過添加參數--output segments
將其重定向到segments
文件。每行都包含文件/話語名稱,在幾秒鐘內的話語開始和結束時間以及置信度得分;還可以選擇的話語文字。置信度得分是對數空間中的概率,表明話語對齊的程度。如果需要,請刪除不良話語:
min_confidence_score=-7
# here, we assume that the output was written to the file `segments`
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' segments
有關更多信息,請參見模塊文檔。建議使用與基於RNN的編碼器(例如BLSTMP)對齊大型音頻文件的模型;而不是使用在更長的音頻數據上具有高內存消耗的變壓器模型。音頻的採樣率必須與訓練中使用的數據的樣本率一致;如果需要,請使用sox
進行調整。
另外,如果我們準備一個令牌列表,而不是text
文件中的話語列表,則可以使用此工具提供令牌級的細分信息。請參閱#4278(評論)中的討論。
@inproceedings{watanabe2018espnet,
author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson {Enrique Yalta Soplin} and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
title={{ESPnet}: End-to-End Speech Processing Toolkit},
year={2018},
booktitle={Proceedings of Interspeech},
pages={2207--2211},
doi={10.21437/Interspeech.2018-1456},
url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={7654--7658},
year={2020},
organization={IEEE}
}
@inproceedings{inaguma-etal-2020-espnet,
title = "{ESP}net-{ST}: All-in-One Speech Translation Toolkit",
author = "Inaguma, Hirofumi and
Kiyono, Shun and
Duh, Kevin and
Karita, Shigeki and
Yalta, Nelson and
Hayashi, Tomoki and
Watanabe, Shinji",
booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.acl-demos.34",
pages = "302--311",
}
@article{hayashi2021espnet2,
title={{ESP}net2-{TTS}: Extending the edge of {TTS} research},
author={Hayashi, Tomoki and Yamamoto, Ryuichi and Yoshimura, Takenori and Wu, Peter and Shi, Jiatong and Saeki, Takaaki and Ju, Yooncheol and Yasuda, Yusuke and Takamichi, Shinnosuke and Watanabe, Shinji},
journal={arXiv preprint arXiv:2110.07840},
year={2021}
}
@inproceedings{li2020espnet,
title={{ESPnet-SE}: End-to-End Speech Enhancement and Separation Toolkit Designed for {ASR} Integration},
author={Chenda Li and Jing Shi and Wangyou Zhang and Aswin Shanmugam Subramanian and Xuankai Chang and Naoyuki Kamo and Moto Hira and Tomoki Hayashi and Christoph Boeddeker and Zhuo Chen and Shinji Watanabe},
booktitle={Proceedings of IEEE Spoken Language Technology Workshop (SLT)},
pages={785--792},
year={2021},
organization={IEEE},
}
@inproceedings{arora2021espnet,
title={{ESPnet-SLU}: Advancing Spoken Language Understanding through ESPnet},
author={Arora, Siddhant and Dalmia, Siddharth and Denisov, Pavel and Chang, Xuankai and Ueda, Yushi and Peng, Yifan and Zhang, Yuekai and Kumar, Sujay and Ganesan, Karthik and Yan, Brian and others},
booktitle={ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={7167--7171},
year={2022},
organization={IEEE}
}
@inproceedings{shi2022muskits,
author={Shi, Jiatong and Guo, Shuai and Qian, Tao and Huo, Nan and Hayashi, Tomoki and Wu, Yuning and Xu, Frank and Chang, Xuankai and Li, Huazhe and Wu, Peter and Watanabe, Shinji and Jin, Qin},
title={{Muskits}: an End-to-End Music Processing Toolkit for Singing Voice Synthesis},
year={2022},
booktitle={Proceedings of Interspeech},
pages={4277-4281},
url={https://www.isca-speech.org/archive/pdfs/interspeech_2022/shi22d_interspeech.pdf}
}
@inproceedings{lu22c_interspeech,
author={Yen-Ju Lu and Xuankai Chang and Chenda Li and Wangyou Zhang and Samuele Cornell and Zhaoheng Ni and Yoshiki Masuyama and Brian Yan and Robin Scheibler and Zhong-Qiu Wang and Yu Tsao and Yanmin Qian and Shinji Watanabe},
title={{ESPnet-SE++: Speech Enhancement for Robust Speech Recognition, Translation, and Understanding}},
year=2022,
booktitle={Proc. Interspeech 2022},
pages={5458--5462},
}
@inproceedings{gao2023euro,
title={{EURO: ESP}net unsupervised {ASR} open-source toolkit},
author={Gao, Dongji and Shi, Jiatong and Chuang, Shun-Po and Garcia, Leibny Paola and Lee, Hung-yi and Watanabe, Shinji and Khudanpur, Sanjeev},
booktitle={ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={1--5},
year={2023},
organization={IEEE}
}
@inproceedings{peng2023reproducing,
title={Reproducing {W}hisper-style training using an open-source toolkit and publicly available data},
author={Peng, Yifan and Tian, Jinchuan and Yan, Brian and Berrebbi, Dan and Chang, Xuankai and Li, Xinjian and Shi, Jiatong and Arora, Siddhant and Chen, William and Sharma, Roshan and others},
booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
pages={1--8},
year={2023},
organization={IEEE}
}
@inproceedings{sharma2023espnet,
title={ESPnet-{SUMM}: Introducing a novel large dataset, toolkit, and a cross-corpora evaluation of speech summarization systems},
author={Sharma, Roshan and Chen, William and Kano, Takatomo and Sharma, Ruchira and Arora, Siddhant and Watanabe, Shinji and Ogawa, Atsunori and Delcroix, Marc and Singh, Rita and Raj, Bhiksha},
booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
pages={1--8},
year={2023},
organization={IEEE}
}
@article{jung2024espnet,
title={{ESPnet-SPK}: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models},
author={Jung, Jee-weon and Zhang, Wangyou and Shi, Jiatong and Aldeneh, Zakaria and Higuchi, Takuya and Theobald, Barry-John and Abdelaziz, Ahmed Hussen and Watanabe, Shinji},
journal={Proc. Interspeech 2024},
year={2024}
}
@inproceedings{yan-etal-2023-espnet,
title = "{ESP}net-{ST}-v2: Multipurpose Spoken Language Translation Toolkit",
author = "Yan, Brian and
Shi, Jiatong and
Tang, Yun and
Inaguma, Hirofumi and
Peng, Yifan and
Dalmia, Siddharth and
Pol{'a}k, Peter and
Fernandes, Patrick and
Berrebbi, Dan and
Hayashi, Tomoki and
Zhang, Xiaohui and
Ni, Zhaoheng and
Hira, Moto and
Maiti, Soumi and
Pino, Juan and
Watanabe, Shinji",
booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)",
year = "2023",
publisher = "Association for Computational Linguistics",
pages = "400--411",
}