ドキュメント|例|例(ESPNET2) | Docker |ノート
ESPNETは、エンドツーエンドの音声認識、テキストツースピーチ、音声翻訳、音声翻訳、スピーカーの日記、話し言葉の理解などをカバーするエンドツーエンドの音声処理ツールキットです。 ESPNETは、Pytorchをディープラーニングエンジンとして使用し、Kaldiスタイルのデータ処理、特徴抽出/形式、およびレシピに従って、さまざまな音声処理実験の完全なセットアップを提供します。
ASR
レシピのサポート番号(WSJ、スイッチボード、Chime-4/5、Librispeech、TED、CSJ、AMI、HKUST、VOXFORGE、REVETE、GIGASPEECHなど)TTS
レシピの数をサポートします。ST
レシピのサポート番号(Fisher-Callhomeスペイン語、Libri-Trans、IWSLT'18、How2、Must-C、Mboshi-Frenchなど)MT
レシピのサポート番号(IWSLT'14、IWSLT'16、上記のセントレシピなど)SLU
レシピのサポート番号(CATSLU-MAPS、FSC、GRABO、IEMOCAP、JDCINAL、SNIPS、SLURP、SWBD-DAなど)SE/SS
レシピのサポート番号(DNS-IS2020、Librimix、SMS-WSJ、VCTK-NOISYREVERB、WHAM!、WHAMR!、WSJ-2MIXなど)完全なドキュメントについては、チュートリアルページを参照してください。
frontend
s3prl
に設定しますfrontend_conf
対応する名前に設定して、上流モデルを選択します。デモンストレーション
デモンストレーション
ニューラルボコーダーをトレーニングするには、次のリポジトリを確認してください。
デモンストレーション
ESPNET2を参照してください。
DNNトレーニングを含む完全な実験を行う場合は、インストールを参照してください。
Pythonモジュールのみが必要な場合のみ:
# We recommend you install PyTorch before installing espnet following https://pytorch.org/get-started/locally/
pip install espnet
# To install the latest
# pip install git+https://github.com/espnet/espnet
# To install additional packages
# pip install "espnet[all]"
ESPNET1を使用する場合は、ChainerとCupyをインストールしてください。
pip install chainer==6.0.0 cupy==6.0.0 # [Option]
各タスクに応じて、いくつかのパッケージをインストールする必要がある場合があります。ツール/インストーラーでさまざまなインストールスクリプトを準備しました。
(ESPNET2)インストールしたら、 wandb login
実行してset --use_wandb true
w&bを使用して追跡することを有効にします。
Dockerに移動して、指示に従ってください。
ESPNETに時間を割いていただきありがとうございます! ESPNETへの貢献は大歓迎です。問題や問題について質問やリクエストをお気軽にお問い合わせください。それがあなたの最初のESPNETの貢献である場合は、貢献ガイドに従ってください。
主要なASRタスクの文字エラー率(CER)と単語エラー率(WER)をリストします。
タスク | cer(%) | wer(%) | 事前に訓練されたモデル |
---|---|---|---|
Aishell Dev/Test | 4.6/5.1 | n/a | リンク |
espnet2 aishell dev/test | 4.1/4.4 | n/a | リンク |
一般的な音声開発/テスト | 1.7/1.8 | 2.2/2.3 | リンク |
CSJ eval1/eval2/eval3 | 5.7/3.8/4.2 | n/a | リンク |
ESPNET2 CSJ EVAL1/EVAL2/EVAL3 | 4.5/3.3/3.6 | n/a | リンク |
ESPNET2 GigaSpeech Dev/Test | n/a | 10.6/10.5 | リンク |
hkust dev | 23.5 | n/a | リンク |
espnet2 hkust dev | 21.2 | n/a | リンク |
librispeech dev_clean/dev_other/test_clean/test_other | n/a | 1.9/4.9/2.1/4.9 | リンク |
espnet2 librispeech dev_clean/dev_other/test_clean/test_other | 0.6/1.5/0.6/1.4 | 1.7/3.4/1.8/3.6 | リンク |
スイッチボード(Eval2000)Callhm/SWBD | n/a | 14.0/6.8 | リンク |
ESPNET2スイッチボード(EVAL2000)CALLHM/SWBD | n/a | 13.4/7.3 | リンク |
tedlium2 dev/test | n/a | 8.6/7.2 | リンク |
ESPNET2 TEDLIUM2 DEV/テスト | n/a | 7.3/7.1 | リンク |
tedlium3 dev/test | n/a | 9.6/7.6 | リンク |
WSJ dev93/eval92 | 3.2/2.1 | 7.0/4.7 | n/a |
ESPNET2 WSJ dev93/eval92 | 1.1/0.8 | 2.8/1.8 | リンク |
CSJ、HKUST、およびLibrispeechタスクのパフォーマンスは、RWTHが報告する必要に応じて、ワイドネットワーク(#Units = 1024)と大規模なサブワード単位を使用することにより、大幅に改善されたことに注意してください。
他のレシピの結果を確認する場合は、 egs/<name_of_recipe>/asr1/RESULTS.md
を確認してください。
事前に訓練されたモデルを使用して、WAVファイルの音声を認識できます。レシピディレクトリに移動し、次のようにutils/recog_wav.sh
を実行します。
# go to the recipe directory and source path of espnet tools
cd egs/tedlium2/asr1 && . ./path.sh
# let's recognize speech!
recog_wav.sh --models tedlium2.transformer.v1 example.wav
example.wav
は、認識される波状ファイルです。サンプリングレートは、トレーニングで使用されるデータのサンプリングレートと一致する必要があります。
デモスクリプトで利用可能な事前に訓練されたモデルを以下に示します。
モデル | メモ |
---|---|
Tedlium2.rnn.v1 | CTCベースのVADに基づくストリーミングデコード |
Tedlium2.rnn.v2 | CTCベースのVAD(バッチデコード)に基づくストリーミングデコード |
tedlium2.transformer.v1 | Tedlium 2で訓練された関節注意トランス2 |
tedlium3.transformer.v1 | Tedlium 3で訓練された関節注意トランス3 |
librispeech.transformer.v1 | Librispeechで訓練されたジョイントCTC注意トランス |
commonvoice.transformer.v1 | CommonVoiceでトレーニングされたジョイントCTC注意トランス |
csj.transformer.v1 | CSJでトレーニングされたジョイントCTC注意トランス |
csj.rnn.v1 | CSJでトレーニングされたジョイントCTCの注意vggblstm |
WSJ0-2Mixの3つの異なるモデルの結果をリストします。これは、音声分離のために最も広く使用されているベンチマークデータセットです。
モデル | ストイ | sar | SDR | お客様 |
---|---|---|---|---|
TFマスキング | 0.89 | 11.40 | 10.24 | 18.04 |
Conv-Tasnet | 0.95 | 16.62 | 15.94 | 25.90 |
dprnn-tasnet | 0.96 | 18.82 | 18.29 | 28.92 |
ESPNET2に基づいています。事前に訓練されたモデルは、音声強化と音声分離タスクの両方で利用できます。
音声分離ストリーミングデモ:
主要なSTタスクの4グラムブルーをリストします。
タスク | ブルー | 事前に訓練されたモデル |
---|---|---|
Fisher-CallhomeスペインFisher_test(es-> en) | 51.03 | リンク |
Fisher-Callhomeスペイン語Callhome_evltest(es-> en) | 20.44 | リンク |
Libri-Transテスト(en-> fr) | 16.70 | リンク |
how2 dev5(en-> pt) | 45.68 | リンク |
マスト-C TST-Common(en-> de) | 22.91 | リンク |
Mboshi-French Dev(fr-> mboshi) | 6.18 | n/a |
タスク | ブルー | 事前に訓練されたモデル |
---|---|---|
Fisher-CallhomeスペインFisher_test(es-> en) | 42.16 | n/a |
Fisher-Callhomeスペイン語Callhome_evltest(es-> en) | 19.82 | n/a |
Libri-Transテスト(en-> fr) | 16.96 | n/a |
how2 dev5(en-> pt) | 44.90 | n/a |
マスト-C TST-Common(en-> de) | 23.65 | n/a |
他のレシピの結果を確認する場合は、 egs/<name_of_recipe>/st1/RESULTS.md
を確認してください。
(新しい! )Google Colabで新しいリアルタイムE2E-ST + TTSデモを行いました。次のボタンからノートブックにアクセスし、リアルタイムのスピーチからスピーチの翻訳をお楽しみください!
事前に訓練されたモデルを使用して、WAVファイルでスピーチを翻訳できます。レシピディレクトリに移動し、次のようにutils/translate_wav.sh
を実行します。
# Go to recipe directory and source path of espnet tools
cd egs/fisher_callhome_spanish/st1 && . ./path.sh
# download example wav file
wget -O - https://github.com/espnet/espnet/files/4100928/test.wav.tar.gz | tar zxvf -
# let's translate speech!
translate_wav.sh --models fisher_callhome_spanish.transformer.v1.es-en test.wav
test.wav
は、翻訳する波状ファイルです。サンプリングレートは、トレーニングで使用されるデータのサンプリングレートと一致する必要があります。
デモスクリプトで利用可能な事前に訓練されたモデルを以下にリストします。
モデル | メモ |
---|---|
fisher_callhome_spanish.transformer.v1 | Fisher-Callhomeスペイン語ES-> enで訓練されたトランスセント |
タスク | ブルー | 事前に訓練されたモデル |
---|---|---|
Fisher-CallhomeスペインFisher_test(es-> en) | 61.45 | リンク |
Fisher-Callhomeスペイン語Callhome_evltest(es-> en) | 29.86 | リンク |
Libri-Transテスト(en-> fr) | 18.09 | リンク |
how2 dev5(en-> pt) | 58.61 | リンク |
マスト-C TST-Common(en-> de) | 27.63 | リンク |
IWSLT'14 test2014(en-> de) | 24.70 | リンク |
iwslt'14 test2014(de-> en) | 29.22 | リンク |
iwslt'14 test2014(de-> en) | 32.2 | リンク |
iwslt'16 test2014(en-> de) | 24.05 | リンク |
iwslt'16 test2014(de-> en) | 29.13 | リンク |
次のURLで生成されたサンプルを聞くことができます。
世代では、Griffin-Lim(
wav/
)およびParallel Wavegan(wav_pwg/
)を使用していることに注意してください。
espnet_model_zoo
を介して事前に訓練されたモデルをダウンロードできます。
kan-bayashi/ParallelWaveGAN
を介して事前に訓練されたボコーダーをダウンロードできます。
注:TTSのESPNET2ベースの開発を進んでいます。上記のESPNET2結果の最新の結果を確認してください。
デモHP ESPNET-TTSサンプルでサンプルを聴くことができます。ここにいくつかの注目すべきものがリストされています。
事前に訓練されたモデルと生成されたサンプルをすべてダウンロードできます。
生成されたサンプルでは、Griffin-Lim( GL )、Wavenet Vocoder( Wavenet )、Parallel Wavegan( Parallelwavegan )、およびMelgan( Melgan )の次のボコーダーを使用します。ニューラルボコーダーは、次のリポジトリに基づいています。
独自のニューラルボコーダーを構築する場合は、上記のリポジトリを確認してください。 Kan-Bayashi/Parallelwaveganは、ESPNET-TTSモデルの機能を神経声子でデコードする方法についてのマニュアルを提供します。確認してください。
ここでは、事前に訓練されたニューラルボコーダーをすべてリストします。高品質のスピーチの世代をダウンロードしてお楽しみください!
モデルリンク | ラング | FS [Hz] | メルレンジ[Hz] | fft / shift / win [pt] | モデルタイプ |
---|---|---|---|---|---|
ljspeech.wavenet.softmax.ns.v1 | en | 22.05K | なし | 1024 /256 /なし | SoftMax Wavenet |
ljspeech.wavenet.mol.v1 | en | 22.05K | なし | 1024 /256 /なし | Mol Wavenet |
ljspeech.parallel_wavegan.v1 | en | 22.05K | なし | 1024 /256 /なし | パラレルウェーブガン |
ljspeech.wavenet.mol.v2 | en | 22.05K | 80-7600 | 1024 /256 /なし | Mol Wavenet |
ljspeech.parallel_wavegan.v2 | en | 22.05K | 80-7600 | 1024 /256 /なし | パラレルウェーブガン |
ljspeech.melgan.v1 | en | 22.05K | 80-7600 | 1024 /256 /なし | メルガン |
ljspeech.melgan.v3 | en | 22.05K | 80-7600 | 1024 /256 /なし | メルガン |
libritts.wavenet.mol.v1 | en | 24k | なし | 1024 /256 /なし | Mol Wavenet |
jsut.wavenet.mol.v1 | JP | 24k | 80-7600 | 2048 /300 /1200 | Mol Wavenet |
jsut.parallel_wavegan.v1 | JP | 24k | 80-7600 | 2048 /300 /1200 | パラレルウェーブガン |
csmsc.wavenet.mol.v1 | Zh | 24k | 80-7600 | 2048 /300 /1200 | Mol Wavenet |
csmsc.parallel_wavegan.v1 | Zh | 24k | 80-7600 | 2048 /300 /1200 | パラレルウェーブガン |
上記の事前訓練を受けたボコーダーを使用する場合は、機能設定を正確に一致させてください。
Google Colabでリアルタイムデモを試すことができます。次のボタンからノートブックにアクセスして、リアルタイムの合成をお楽しみください!
英語、日本語、およびマンダリンモデルは、デモで入手できます。
注:TTSのESPNET2ベースの開発を進んでいます。上記のESPNET2デモの最新デモを確認してください。
Google Colabでリアルタイムデモを試すことができます。次のボタンからノートブックにアクセスして、リアルタイムの合成をお楽しみください。
また、合成を実行するシェルスクリプトも提供します。レシピディレクトリに移動し、次のようにutils/synth_wav.sh
を実行します。
# Go to recipe directory and source path of espnet tools
cd egs/ljspeech/tts1 && . ./path.sh
# We use an upper-case char sequence for the default model.
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example.txt
# let's synthesize speech!
synth_wav.sh example.txt
# Also, you can use multiple sentences
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example_multi.txt
echo " TEXT TO SPEECH IS A TECHNIQUE TO CONVERT TEXT INTO SPEECH. " >> example_multi.txt
synth_wav.sh example_multi.txt
事前に訓練されたモデルを次のように変更できます。
synth_wav.sh --models ljspeech.fastspeech.v1 example.txt
波形合成は、Griffin-LIMアルゴリズムとニューラルボコーダー(WavenetおよびParallelwavegan)で実行されます。以下のように、事前に訓練されたボコーダーモデルを変更できます。
synth_wav.sh --vocoder_models ljspeech.wavenet.mol.v1 example.txt
Wavenet Vocoderは非常に高品質のスピーチを提供しますが、生成には時間がかかります。
--help
経由の詳細または利用可能なモデルを参照してください。
synth_wav.sh --help
デモWebページでいくつかのサンプルを聴くことができます。
Voice Conversion Challenge 2020(VCC2020)はESPNETを採用して、エンドツーエンドベースのベースラインシステムを構築します。 VCC2020では、目的は内部/間診断の非平行VCです。 Cascade ASR+TTSベースラインシステムの変換されたサンプルをこちらからダウンロードできます。
元のデータセットペーパーで報告されたメトリックを使用して、さまざまなSLUタスクとデータセットのパフォーマンスをリストします
タスク | データセット | メトリック | 結果 | 事前に訓練されたモデル |
---|---|---|---|---|
意図分類 | 丸 | acc | 86.3 | リンク |
意図分類 | FSC | acc | 99.6 | リンク |
意図分類 | FSC目に見えないスピーカーセット | acc | 98.6 | リンク |
意図分類 | FSC目に見えない発話セット | acc | 86.4 | リンク |
意図分類 | FSCチャレンジスピーカーセット | acc | 97.5 | リンク |
意図分類 | FSCチャレンジの発話セット | acc | 78.5 | リンク |
意図分類 | スニップ | F1 | 91.7 | リンク |
意図分類 | グラボ(NL) | acc | 97.2 | リンク |
意図分類 | 猫SLUマップ(ZN) | acc | 78.9 | リンク |
意図分類 | Googleスピーチコマンド | acc | 98.4 | リンク |
スロットフィリング | 丸 | SLU-F1 | 71.9 | リンク |
対話法の分類 | 配電盤 | acc | 67.5 | リンク |
対話法の分類 | jdcinal(jp) | acc | 67.4 | リンク |
感情認識 | iEmocap | acc | 69.4 | リンク |
感情認識 | swbd_sentiment | マクロF1 | 61.4 | リンク |
感情認識 | slue_voxceleb | マクロF1 | 44.0 | リンク |
他のレシピの結果を確認する場合は、 egs2/<name_of_recipe>/asr1/RESULTS.md
を確認してください。
CTCセグメンテーションは、オーディオファイル内の発話セグメントを決定します。アライメントされた発話セグメントは、音声データセットのラベルを構成します。
デモとして、サンプルスクリプトutils/asr_align_wav.sh
を使用して、オーディオファイルctc_align_test.wav
内の発話の開始と終了を整列させます。準備のために、データディレクトリを設定します。
cd egs/tedlium2/align1/
# data directory
align_dir=data/demo
mkdir -p ${align_dir}
# wav file
base=ctc_align_test
wav=../../../test_utils/ ${base} .wav
# recipe files
echo " batchsize: 0 " > ${align_dir} /align.yaml
cat << EOF > ${align_dir} /utt_text
${base} THE SALE OF THE HOTELS
${base} IS PART OF HOLIDAY'S STRATEGY
${base} TO SELL OFF ASSETS
${base} AND CONCENTRATE
${base} ON PROPERTY MANAGEMENT
EOF
ここで、 utt_text
は発話のリストを含むファイルです。発話セグメントを見つけるためのCTCレイヤーを含む事前に訓練されたASRモデルを選択します。
# pre-trained ASR model
model=wsj.transformer_small.v1
mkdir ./conf && cp ../../wsj/asr1/conf/no_preprocess.yaml ./conf
../../../utils/asr_align_wav.sh
--models ${model}
--align_dir ${align_dir}
--align_config ${align_dir} /align.yaml
${wav} ${align_dir} /utt_text
セグメントは、ファイル/発話名のリスト、秒単位での発話の開始時間と終了時間、および信頼性スコアとしてaligned_segments
に書かれています。信頼性スコアは、発話がどれだけうまく整合されているかを示すログ空間の確率です。必要に応じて、悪い発言を削除します。
min_confidence_score=-5
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' ${align_dir} /aligned_segments
DEMOスクリプトutils/ctc_align_wav.sh
すでに事前に訓練されたASRモデルを使用しています(その他のモデルについては、上記のリストを参照)。大規模なオーディオファイルを整列するために、RNNベースのエンコーダー(BLSTMPなど)を備えたモデルを使用することをお勧めします。長いオーディオデータでメモリ消費量が多いトランスモデルを使用するのではなく。オーディオのサンプルレートは、トレーニングで使用されるデータのサンプルレートと一致する必要があります。必要に応じてsox
で調整します。完全な例レシピはegs/tedlium2/align1/
にあります。
CTCセグメンテーションは、オーディオファイル内の発話セグメントを決定します。アライメントされた発話セグメントは、音声データセットのラベルを構成します。
デモとして、オーディオファイルctc_align_test.wav
内の発話の開始と終了を整列させます。これは、Pythonコマンドラインから直接行うか、スクリプトespnet2/bin/asr_align.py
使用して実行できます。
Pythonコマンドラインインターフェイスから:
# load a model with character tokens
from espnet_model_zoo . downloader import ModelDownloader
d = ModelDownloader ( cachedir = "./modelcache" )
wsjmodel = d . download_and_unpack ( "kamo-naoyuki/wsj" )
# load the example file included in the ESPnet repository
import soundfile
speech , rate = soundfile . read ( "./test_utils/ctc_align_test.wav" )
# CTC segmentation
from espnet2 . bin . asr_align import CTCSegmentation
aligner = CTCSegmentation ( ** wsjmodel , fs = rate )
text = """
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE ON PROPERTY MANAGEMENT
"""
segments = aligner ( speech , text )
print ( segments )
# utt1 utt 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 utt 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 utt 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 utt 4.20 6.10 -0.4899 AND CONCENTRATE ON PROPERTY MANAGEMENT
Alingは、テキストのフラグメントでも動作します。このために、無関係なオーディオセクションをペナルティなしでスキップできるようにするgratis_blank
オプションを設定します。 kaldi_style_text
falseに設定することにより、各行の先頭に発話名を省略することもできます。
aligner . set_config ( gratis_blank = True , kaldi_style_text = False )
text = [ "SALE OF THE HOTELS" , "PROPERTY MANAGEMENT" ]
segments = aligner ( speech , text )
print ( segments )
# utt_0000 utt 0.37 1.72 -2.0651 SALE OF THE HOTELS
# utt_0001 utt 4.70 6.10 -5.0566 PROPERTY MANAGEMENT
スクリプトespnet2/bin/asr_align.py
同様のインターフェイスを使用します。発話を調整するには:
# ASR model and config files from pre-trained model (e.g., from cachedir):
asr_config= < path-to-model > /config.yaml
asr_model= < path-to-model > /valid. * best.pth
# prepare the text file
wav= " test_utils/ctc_align_test.wav "
text= " test_utils/ctc_align_text.txt "
cat << EOF > ${text}
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE
utt5 ON PROPERTY MANAGEMENT
EOF
# obtain alignments:
python espnet2/bin/asr_align.py --asr_train_config ${asr_config} --asr_model_file ${asr_model} --audio ${wav} --text ${text}
# utt1 ctc_align_test 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 ctc_align_test 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 ctc_align_test 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 ctc_align_test 4.20 4.97 -0.6017 AND CONCENTRATE
# utt5 ctc_align_test 4.97 6.10 -0.3477 ON PROPERTY MANAGEMENT
スクリプトの出力は、引数--output segments
追加することにより、 segments
ファイルにリダイレクトできます。各行には、ファイル/発話名、発言の開始時間と秒単位の時間、および信頼性スコアが含まれます。オプションでは、発話テキストもあります。信頼性スコアは、発話がどれだけうまく整合されているかを示すログ空間の確率です。必要に応じて、悪い発言を削除します。
min_confidence_score=-7
# here, we assume that the output was written to the file `segments`
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' segments
詳細については、モジュールのドキュメントを参照してください。大規模なオーディオファイルを整列するために、RNNベースのエンコーダー(BLSTMPなど)を備えたモデルを使用することをお勧めします。より長いオーディオデータでメモリ消費量が高いトランスモデルを使用するのではなく。オーディオのサンプルレートは、トレーニングで使用されるデータのサンプルレートと一致する必要があります。必要に応じてsox
で調整します。
また、このツールを使用して、 text
ファイルの発話のトークンのリストではなくトークンのリストを準備する場合、トークンレベルのセグメンテーション情報を提供できます。 #4278(コメント)のディスカッションを参照してください。
@inproceedings{watanabe2018espnet,
author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson {Enrique Yalta Soplin} and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
title={{ESPnet}: End-to-End Speech Processing Toolkit},
year={2018},
booktitle={Proceedings of Interspeech},
pages={2207--2211},
doi={10.21437/Interspeech.2018-1456},
url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={7654--7658},
year={2020},
organization={IEEE}
}
@inproceedings{inaguma-etal-2020-espnet,
title = "{ESP}net-{ST}: All-in-One Speech Translation Toolkit",
author = "Inaguma, Hirofumi and
Kiyono, Shun and
Duh, Kevin and
Karita, Shigeki and
Yalta, Nelson and
Hayashi, Tomoki and
Watanabe, Shinji",
booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.acl-demos.34",
pages = "302--311",
}
@article{hayashi2021espnet2,
title={{ESP}net2-{TTS}: Extending the edge of {TTS} research},
author={Hayashi, Tomoki and Yamamoto, Ryuichi and Yoshimura, Takenori and Wu, Peter and Shi, Jiatong and Saeki, Takaaki and Ju, Yooncheol and Yasuda, Yusuke and Takamichi, Shinnosuke and Watanabe, Shinji},
journal={arXiv preprint arXiv:2110.07840},
year={2021}
}
@inproceedings{li2020espnet,
title={{ESPnet-SE}: End-to-End Speech Enhancement and Separation Toolkit Designed for {ASR} Integration},
author={Chenda Li and Jing Shi and Wangyou Zhang and Aswin Shanmugam Subramanian and Xuankai Chang and Naoyuki Kamo and Moto Hira and Tomoki Hayashi and Christoph Boeddeker and Zhuo Chen and Shinji Watanabe},
booktitle={Proceedings of IEEE Spoken Language Technology Workshop (SLT)},
pages={785--792},
year={2021},
organization={IEEE},
}
@inproceedings{arora2021espnet,
title={{ESPnet-SLU}: Advancing Spoken Language Understanding through ESPnet},
author={Arora, Siddhant and Dalmia, Siddharth and Denisov, Pavel and Chang, Xuankai and Ueda, Yushi and Peng, Yifan and Zhang, Yuekai and Kumar, Sujay and Ganesan, Karthik and Yan, Brian and others},
booktitle={ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={7167--7171},
year={2022},
organization={IEEE}
}
@inproceedings{shi2022muskits,
author={Shi, Jiatong and Guo, Shuai and Qian, Tao and Huo, Nan and Hayashi, Tomoki and Wu, Yuning and Xu, Frank and Chang, Xuankai and Li, Huazhe and Wu, Peter and Watanabe, Shinji and Jin, Qin},
title={{Muskits}: an End-to-End Music Processing Toolkit for Singing Voice Synthesis},
year={2022},
booktitle={Proceedings of Interspeech},
pages={4277-4281},
url={https://www.isca-speech.org/archive/pdfs/interspeech_2022/shi22d_interspeech.pdf}
}
@inproceedings{lu22c_interspeech,
author={Yen-Ju Lu and Xuankai Chang and Chenda Li and Wangyou Zhang and Samuele Cornell and Zhaoheng Ni and Yoshiki Masuyama and Brian Yan and Robin Scheibler and Zhong-Qiu Wang and Yu Tsao and Yanmin Qian and Shinji Watanabe},
title={{ESPnet-SE++: Speech Enhancement for Robust Speech Recognition, Translation, and Understanding}},
year=2022,
booktitle={Proc. Interspeech 2022},
pages={5458--5462},
}
@inproceedings{gao2023euro,
title={{EURO: ESP}net unsupervised {ASR} open-source toolkit},
author={Gao, Dongji and Shi, Jiatong and Chuang, Shun-Po and Garcia, Leibny Paola and Lee, Hung-yi and Watanabe, Shinji and Khudanpur, Sanjeev},
booktitle={ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={1--5},
year={2023},
organization={IEEE}
}
@inproceedings{peng2023reproducing,
title={Reproducing {W}hisper-style training using an open-source toolkit and publicly available data},
author={Peng, Yifan and Tian, Jinchuan and Yan, Brian and Berrebbi, Dan and Chang, Xuankai and Li, Xinjian and Shi, Jiatong and Arora, Siddhant and Chen, William and Sharma, Roshan and others},
booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
pages={1--8},
year={2023},
organization={IEEE}
}
@inproceedings{sharma2023espnet,
title={ESPnet-{SUMM}: Introducing a novel large dataset, toolkit, and a cross-corpora evaluation of speech summarization systems},
author={Sharma, Roshan and Chen, William and Kano, Takatomo and Sharma, Ruchira and Arora, Siddhant and Watanabe, Shinji and Ogawa, Atsunori and Delcroix, Marc and Singh, Rita and Raj, Bhiksha},
booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
pages={1--8},
year={2023},
organization={IEEE}
}
@article{jung2024espnet,
title={{ESPnet-SPK}: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models},
author={Jung, Jee-weon and Zhang, Wangyou and Shi, Jiatong and Aldeneh, Zakaria and Higuchi, Takuya and Theobald, Barry-John and Abdelaziz, Ahmed Hussen and Watanabe, Shinji},
journal={Proc. Interspeech 2024},
year={2024}
}
@inproceedings{yan-etal-2023-espnet,
title = "{ESP}net-{ST}-v2: Multipurpose Spoken Language Translation Toolkit",
author = "Yan, Brian and
Shi, Jiatong and
Tang, Yun and
Inaguma, Hirofumi and
Peng, Yifan and
Dalmia, Siddharth and
Pol{'a}k, Peter and
Fernandes, Patrick and
Berrebbi, Dan and
Hayashi, Tomoki and
Zhang, Xiaohui and
Ni, Zhaoheng and
Hira, Moto and
Maiti, Soumi and
Pino, Juan and
Watanabe, Shinji",
booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)",
year = "2023",
publisher = "Association for Computational Linguistics",
pages = "400--411",
}