Docs | Contoh | Contoh (ESPNET2) | Docker | Buku catatan
ESPNET adalah toolkit pemrosesan ucapan end-to-end yang mencakup pengenalan ucapan end-to-end, teks-ke-pidato, terjemahan ucapan, peningkatan ucapan, Diarization Pembicara, pemahaman bahasa lisan, dan sebagainya. ESPNET menggunakan Pytorch sebagai mesin pembelajaran yang mendalam dan juga mengikuti pemrosesan data gaya Kaldi, ekstraksi/format fitur, dan resep untuk memberikan pengaturan lengkap untuk berbagai percobaan pemrosesan bicara.
ASR
(WSJ, Switchboard, Chime-4/5, Librispeech, Ted, CSJ, AMI, HKUST, VOXForge, Reverb, Gigaspeech, dll.)TTS
dengan cara yang mirip dengan resep ASR (LJSPEECH, LIBRITTS, M-ADABS, dll.)ST
(Fisher-Callhome Spanyol, Libri-Trans, IWSLT'18, How2, Must-C, Mboshi-Prancis, dll.)MT
(IWSLT'14, IWSLT'16, resep ST di atas dll.)SLU
(Catslu-Maps, FSC, Grabo, Iemocap, JDCinal, Snips, Slurp, SWBD-DA, dll.)SE/SS
(DNS-IS2020, Librimix, SMS-WSJ, VCTK-Noisyreverb, Wham!, Whamr!, WSJ-2MIX, dll.)Silakan merujuk ke halaman tutorial untuk dokumentasi lengkap.
frontend
ke s3prl
frontend_conf
ke nama yang sesuai.Demonstrasi
Demonstrasi
Untuk melatih vokoder saraf, silakan periksa repositori berikut:
Demonstrasi
Lihat ESPNET2.
Jika Anda bermaksud melakukan eksperimen penuh, termasuk pelatihan DNN, maka lihat instalasi.
Jika Anda hanya membutuhkan modul Python saja:
# We recommend you install PyTorch before installing espnet following https://pytorch.org/get-started/locally/
pip install espnet
# To install the latest
# pip install git+https://github.com/espnet/espnet
# To install additional packages
# pip install "espnet[all]"
Jika Anda menggunakan ESPNET1, silakan pasang Chainer dan Cupy.
pip install chainer==6.0.0 cupy==6.0.0 # [Option]
Anda mungkin perlu menginstal beberapa paket tergantung pada setiap tugas. Kami menyiapkan berbagai skrip instalasi di Tools/Installer.
(ESPNET2) Setelah diinstal, jalankan wandb login
dan set --use_wandb true
untuk mengaktifkan pelacakan berjalan menggunakan W&B.
Pergi ke Docker/ dan ikuti instruksi.
Terima kasih telah meluangkan waktu untuk ESPNet! Setiap kontribusi untuk ESPNet dipersilakan, dan jangan ragu untuk mengajukan pertanyaan atau permintaan masalah. Jika ini kontribusi ESPNet pertama Anda, silakan ikuti panduan kontribusi.
Kami mencantumkan Tingkat Kesalahan Karakter (CER) dan tingkat kesalahan kata (WER) dari tugas ASR utama.
Tugas | Cer (%) | Wer (%) | Model pra-terlatih |
---|---|---|---|
Aishell Dev/Test | 4.6/5.1 | N/a | link |
Espnet2 Aishell Dev/Test | 4.1/4.4 | N/a | link |
Tes/tes suara umum | 1.7/1.8 | 2.2/2.3 | link |
CSJ eval1/eval2/eval3 | 5.7/3.8/4.2 | N/a | link |
ESPNET2 CSJ eval1/eval2/eval3 | 4.5/3.3/3.6 | N/a | link |
ESPNET2 Gigaspeech Dev/Test | N/a | 10.6/10.5 | link |
HKUST DEV | 23.5 | N/a | link |
ESPNET2 HKUST DEV | 21.2 | N/a | link |
Librispeech dev_clean/dev_other/test_clean/test_other | N/a | 1.9/4.9/2.1/4.9 | link |
ESPNET2 Librispeech dev_clean/dev_other/test_clean/test_other | 0.6/1.5/0.6/1.4 | 1.7/3.4/1.8/3.6 | link |
Switchboard (Eval2000) CallHM/SWBD | N/a | 14.0/6.8 | link |
ESPNET2 Switchboard (Eval2000) CallHM/SWBD | N/a | 13.4/7.3 | link |
Tedlium2 dev/tes | N/a | 8.6/7.2 | link |
ESPNET2 TEDLIUM2 DEV/TEST | N/a | 7.3/7.1 | link |
Tedlium3 dev/tes | N/a | 9.6/7.6 | link |
WSJ DEV93/EVAL92 | 3.2/2.1 | 7.0/4.7 | N/a |
ESPNET2 WSJ DEV93/EVAL92 | 1.1/0.8 | 2.8/1.8 | link |
Perhatikan bahwa kinerja tugas CSJ, HKUST, dan Librispeech secara signifikan ditingkatkan dengan menggunakan jaringan lebar (#Units = 1024) dan unit subword besar jika perlu dilaporkan oleh RWTH.
Jika Anda ingin memeriksa hasil resep lain, silakan periksa egs/<name_of_recipe>/asr1/RESULTS.md
.
Anda dapat mengenali pidato dalam file WAV menggunakan model pra-terlatih. Buka direktori resep dan jalankan utils/recog_wav.sh
sebagai berikut:
# go to the recipe directory and source path of espnet tools
cd egs/tedlium2/asr1 && . ./path.sh
# let's recognize speech!
recog_wav.sh --models tedlium2.transformer.v1 example.wav
di mana example.wav
adalah file wav yang harus dikenali. Tingkat pengambilan sampel harus konsisten dengan data yang digunakan dalam pelatihan.
Model pra-terlatih yang tersedia dalam skrip demo tercantum di bawah ini.
Model | Catatan |
---|---|
tedlium2.rnn.v1 | Streaming decoding berdasarkan VAD berbasis CTC |
tedlium2.rnn.v2 | Decoding streaming berdasarkan VAD berbasis CTC (decoding batch) |
tedlium2.transformer.v1 | Transformator perhatian bersama-CTC dilatih pada tedlium 2 |
tedlium3.transformer.v1 | Transformator perhatian bersama-CTC dilatih pada Tedlium 3 |
librispeech.transformer.v1 | Transformator perhatian bersama-CTC dilatih di Librispeech |
CommonVoice.transformer.v1 | Transformator perhatian bersama-CTC yang dilatih pada Commonvoice |
csj.transformer.v1 | Transformator perhatian bersama-CTC dilatih di CSJ |
csj.rnn.v1 | Perhatian bersama-CTC VGGBLSTM dilatih di CSJ |
Kami mencantumkan hasil dari tiga model berbeda di WSJ0-2MIX, yang merupakan salah satu dataset patokan yang paling banyak digunakan untuk pemisahan wicara.
Model | Stoi | Sar | Sdr | PAK |
---|---|---|---|---|
TF Masking | 0.89 | 11.40 | 10.24 | 18.04 |
Conv-Tasnet | 0.95 | 16.62 | 15.94 | 25.90 |
DPRNN-TASNET | 0.96 | 18.82 | 18.29 | 28.92 |
Ini didasarkan pada ESPNET2. Model pra-terlatih tersedia untuk peningkatan ucapan dan tugas pemisahan bicara.
Demo Streaming Pemisahan Pidato:
Kami mencantumkan 4-gram bleu dari tugas-tugas utama.
Tugas | Bleu | Model pra-terlatih |
---|---|---|
Fisher-Callhome Spanyol Fisher_test (ES-> EN) | 51.03 | link |
Fisher-Callhome Spanyol callhome_evltest (es-> en) | 20.44 | link |
Uji Libri-Trans (en-> FR) | 16.70 | link |
How2 dev5 (en-> pt) | 45.68 | link |
Must-C TST-Common (en-> de) | 22.91 | link |
Mboshi-Prancis Dev (Fr-> Mboshi) | 6.18 | N/a |
Tugas | Bleu | Model pra-terlatih |
---|---|---|
Fisher-Callhome Spanyol Fisher_test (ES-> EN) | 42.16 | N/a |
Fisher-Callhome Spanyol callhome_evltest (es-> en) | 19.82 | N/a |
Uji Libri-Trans (en-> FR) | 16.96 | N/a |
How2 dev5 (en-> pt) | 44.90 | N/a |
Must-C TST-Common (en-> de) | 23.65 | N/a |
Jika Anda ingin memeriksa hasil resep lain, silakan periksa egs/<name_of_recipe>/st1/RESULTS.md
.
( Baru! ) Kami membuat demonstrasi E2E-St + TTS real-time baru di Google Colab. Harap akses buku catatan dari tombol berikut dan nikmati terjemahan ucapan-ke-speech real-time!
Anda dapat menerjemahkan pidato dalam file WAV menggunakan model pra-terlatih. Buka direktori resep dan jalankan utils/translate_wav.sh
sebagai berikut:
# Go to recipe directory and source path of espnet tools
cd egs/fisher_callhome_spanish/st1 && . ./path.sh
# download example wav file
wget -O - https://github.com/espnet/espnet/files/4100928/test.wav.tar.gz | tar zxvf -
# let's translate speech!
translate_wav.sh --models fisher_callhome_spanish.transformer.v1.es-en test.wav
di mana test.wav
adalah file wav yang akan diterjemahkan. Tingkat pengambilan sampel harus konsisten dengan data yang digunakan dalam pelatihan.
Model pra-terlatih yang tersedia dalam skrip demo terdaftar di bawah ini.
Model | Catatan |
---|---|
fisher_callhome_spanish.transformer.v1 | Transformer-st terlatih di fisher-callhome spanyol es-> en |
Tugas | Bleu | Model pra-terlatih |
---|---|---|
Fisher-Callhome Spanyol Fisher_test (ES-> EN) | 61.45 | link |
Fisher-Callhome Spanyol callhome_evltest (es-> en) | 29.86 | link |
Uji Libri-Trans (en-> FR) | 18.09 | link |
How2 dev5 (en-> pt) | 58.61 | link |
Must-C TST-Common (en-> de) | 27.63 | link |
IWSLT'14 Test2014 (en-> de) | 24.70 | link |
IWSLT'14 TEST2014 (DE-> EN) | 29.22 | link |
IWSLT'14 TEST2014 (DE-> EN) | 32.2 | link |
IWSLT'16 Test2014 (en-> de) | 24.05 | link |
IWSLT'16 TEST2014 (DE-> EN) | 29.13 | link |
Anda dapat mendengarkan sampel yang dihasilkan dalam url berikut.
Perhatikan bahwa pada generasi, kami menggunakan Griffin-Lim (
wav/
) dan paralel Wavegan (wav_pwg/
).
Anda dapat mengunduh model pra-terlatih melalui espnet_model_zoo
.
Anda dapat mengunduh Vocoders Pra-Latih melalui kan-bayashi/ParallelWaveGAN
.
Catatan: Kami sedang bergerak pada pengembangan berbasis ESPNET2 untuk TTS. Silakan periksa hasil terbaru dalam hasil ESPNET2 di atas.
Anda dapat mendengarkan sampel kami di Demo HP ESPNET-TTS-sampel. Di sini kami mencantumkan beberapa yang terkenal:
Anda dapat mengunduh semua model pra-terlatih dan sampel yang dihasilkan:
Perhatikan bahwa dalam sampel yang dihasilkan, kami menggunakan vokoder berikut: Griffin-Lim ( GL ), Wavenet Vocoder ( Wavenet ), paralel Wavegan ( paralelwavegan ), dan Melgan ( Melgan ). Vokoder saraf didasarkan pada repositori berikut.
Jika Anda ingin membangun vocoder saraf Anda sendiri, silakan periksa repositori di atas. Kan-Bayashi/Parallelwavegan menyediakan manual tentang cara mendekode fitur model ESPNET-TTS dengan vokoder saraf. Silakan periksa.
Di sini kami mencantumkan semua vokoder saraf pra-terlatih. Silakan unduh dan nikmati generasi pidato berkualitas tinggi!
Tautan model | Lang | FS [Hz] | Range Mel [Hz] | Fft / shift / win [pt] | Tipe model |
---|---|---|---|---|---|
ljspeech.wavenet.softmax.ns.v1 | En | 22.05k | Tidak ada | 1024 /256 / tidak ada | Softmax Wavenet |
ljspeech.wavenet.mol.v1 | En | 22.05k | Tidak ada | 1024 /256 / tidak ada | Mol Wavenet |
ljspeech.parallel_wavegan.v1 | En | 22.05k | Tidak ada | 1024 /256 / tidak ada | Paralel Wavegan |
ljspeech.wavenet.mol.v2 | En | 22.05k | 80-7600 | 1024 /256 / tidak ada | Mol Wavenet |
ljspeech.parallel_wavegan.v2 | En | 22.05k | 80-7600 | 1024 /256 / tidak ada | Paralel Wavegan |
ljspeech.melgan.v1 | En | 22.05k | 80-7600 | 1024 /256 / tidak ada | Melgan |
ljspeech.melgan.v3 | En | 22.05k | 80-7600 | 1024 /256 / tidak ada | Melgan |
libts.wavenet.mol.v1 | En | 24K | Tidak ada | 1024 /256 / tidak ada | Mol Wavenet |
jsut.wavenet.mol.v1 | Jp | 24K | 80-7600 | 2048 / 300/1200 | Mol Wavenet |
jsut.parallel_wavegan.v1 | Jp | 24K | 80-7600 | 2048 / 300/1200 | Paralel Wavegan |
csmsc.wavenet.mol.v1 | ZH | 24K | 80-7600 | 2048 / 300/1200 | Mol Wavenet |
csmsc.parallel_wavegan.v1 | ZH | 24K | 80-7600 | 2048 / 300/1200 | Paralel Wavegan |
Jika Anda ingin menggunakan vocoders pra-terlatih di atas, harap persis mencocokkan pengaturan fitur dengan mereka.
Anda dapat mencoba demo real-time di Google Colab. Harap akses buku catatan dari tombol berikut dan nikmati sintesis real-time!
Model Inggris, Jepang, dan Mandarin tersedia dalam demo.
Catatan: Kami sedang bergerak pada pengembangan berbasis ESPNET2 untuk TTS. Silakan periksa demo terbaru dalam demo ESPNET2 di atas.
Anda dapat mencoba demo real-time di Google Colab. Harap akses notebook dari tombol berikut dan nikmati sintesis real-time.
Kami juga menyediakan skrip shell untuk melakukan sintesis. Buka direktori resep dan jalankan utils/synth_wav.sh
sebagai berikut:
# Go to recipe directory and source path of espnet tools
cd egs/ljspeech/tts1 && . ./path.sh
# We use an upper-case char sequence for the default model.
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example.txt
# let's synthesize speech!
synth_wav.sh example.txt
# Also, you can use multiple sentences
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example_multi.txt
echo " TEXT TO SPEECH IS A TECHNIQUE TO CONVERT TEXT INTO SPEECH. " >> example_multi.txt
synth_wav.sh example_multi.txt
Anda dapat mengubah model pra-terlatih sebagai berikut:
synth_wav.sh --models ljspeech.fastspeech.v1 example.txt
Sintesis bentuk gelombang dilakukan dengan algoritma Griffin-Lim dan vokoder saraf (Wavenet dan paralelwavegan). Anda dapat mengubah model Vocoder yang terlatih sebagai berikut:
synth_wav.sh --vocoder_models ljspeech.wavenet.mol.v1 example.txt
Wavenet Vocoder memberikan pidato berkualitas tinggi, tetapi butuh waktu untuk menghasilkan.
Lihat detail lebih lanjut atau model yang tersedia melalui --help
.
synth_wav.sh --help
Anda dapat mendengarkan beberapa sampel di halaman web demo.
The Voice Conversion Challenge 2020 (VCC2020) mengadopsi ESPNET untuk membangun sistem dasar berbasis ujung ke ujung. Di VCC2020, tujuannya adalah VC nonparalel intra/lintas-bahasa. Anda dapat mengunduh sampel yang dikonversi dari sistem dasar Cascade ASR+TTS di sini.
Kami mencantumkan kinerja pada berbagai tugas dan dataset SLU menggunakan metrik yang dilaporkan dalam kertas dataset asli
Tugas | Dataset | Metrik | Hasil | Model pra-terlatih |
---|---|---|---|---|
Klasifikasi Inten | MENCUCUP | ACC | 86.3 | link |
Klasifikasi Inten | FSC | ACC | 99.6 | link |
Klasifikasi Inten | Set speaker fsc tak terlihat | ACC | 98.6 | link |
Klasifikasi Inten | Set ucapan fsc unseen | ACC | 86.4 | link |
Klasifikasi Inten | Set Pembicara Tantangan FSC | ACC | 97.5 | link |
Klasifikasi Inten | Set ucapan tantangan fsc | ACC | 78.5 | link |
Klasifikasi Inten | Snips | F1 | 91.7 | link |
Klasifikasi Inten | Grabo (NL) | ACC | 97.2 | link |
Klasifikasi Inten | Cat Slu Map (Zn) | ACC | 78.9 | link |
Klasifikasi Inten | Perintah Google Speech | ACC | 98.4 | link |
Pengisian slot | MENCUCUP | SLU-F1 | 71.9 | link |
Klasifikasi Undang -Undang Dialog | Switchboard | ACC | 67.5 | link |
Klasifikasi Undang -Undang Dialog | JDCinal (JP) | ACC | 67.4 | link |
Pengenalan emosi | Iemocap | ACC | 69.4 | link |
Pengenalan emosi | SWBD_SENTENTEN | F1 makro | 61.4 | link |
Pengenalan emosi | SLUE_VOXCELEB | F1 makro | 44.0 | link |
Jika Anda ingin memeriksa hasil resep lain, silakan periksa egs2/<name_of_recipe>/asr1/RESULTS.md
.
Segmentasi CTC menentukan segmen ucapan dalam file audio. Segmen ucapan yang selaras merupakan label set data pidato.
Sebagai demo, kami menyelaraskan start dan akhir ucapan dalam file audio ctc_align_test.wav
, menggunakan contoh skrip utils/asr_align_wav.sh
. Untuk persiapan, atur direktori data:
cd egs/tedlium2/align1/
# data directory
align_dir=data/demo
mkdir -p ${align_dir}
# wav file
base=ctc_align_test
wav=../../../test_utils/ ${base} .wav
# recipe files
echo " batchsize: 0 " > ${align_dir} /align.yaml
cat << EOF > ${align_dir} /utt_text
${base} THE SALE OF THE HOTELS
${base} IS PART OF HOLIDAY'S STRATEGY
${base} TO SELL OFF ASSETS
${base} AND CONCENTRATE
${base} ON PROPERTY MANAGEMENT
EOF
Di sini, utt_text
adalah file yang berisi daftar ucapan. Pilih model ASR pra-terlatih yang mencakup lapisan CTC untuk menemukan segmen ucapan:
# pre-trained ASR model
model=wsj.transformer_small.v1
mkdir ./conf && cp ../../wsj/asr1/conf/no_preprocess.yaml ./conf
../../../utils/asr_align_wav.sh
--models ${model}
--align_dir ${align_dir}
--align_config ${align_dir} /align.yaml
${wav} ${align_dir} /utt_text
Segmen ditulis ke aligned_segments
sebagai daftar nama file/ucapan, ucapan awal dan akhir dalam detik, dan skor kepercayaan diri. Skor kepercayaan adalah probabilitas dalam ruang log yang menunjukkan seberapa baik ucapan itu selaras. Jika perlu, hapus ucapan yang buruk:
min_confidence_score=-5
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' ${align_dir} /aligned_segments
Script demo utils/ctc_align_wav.sh
menggunakan model ASR yang sudah terlatih (lihat daftar di atas untuk lebih banyak model). Disarankan untuk menggunakan model dengan encoder berbasis RNN (seperti BLSTMP) untuk menyelaraskan file audio besar; Daripada menggunakan model transformator dengan konsumsi memori yang tinggi pada data audio yang lebih panjang. Laju sampel audio harus konsisten dengan data yang digunakan dalam pelatihan; Sesuaikan dengan sox
jika diperlukan. Resep lengkap dalam egs/tedlium2/align1/
.
Segmentasi CTC menentukan segmen ucapan dalam file audio. Segmen ucapan yang selaras merupakan label set data pidato.
Sebagai demo, kami menyelaraskan awal dan akhir ucapan dalam file audio ctc_align_test.wav
. Ini dapat dilakukan baik langsung dari baris perintah Python atau menggunakan skrip espnet2/bin/asr_align.py
.
Dari antarmuka baris perintah Python:
# load a model with character tokens
from espnet_model_zoo . downloader import ModelDownloader
d = ModelDownloader ( cachedir = "./modelcache" )
wsjmodel = d . download_and_unpack ( "kamo-naoyuki/wsj" )
# load the example file included in the ESPnet repository
import soundfile
speech , rate = soundfile . read ( "./test_utils/ctc_align_test.wav" )
# CTC segmentation
from espnet2 . bin . asr_align import CTCSegmentation
aligner = CTCSegmentation ( ** wsjmodel , fs = rate )
text = """
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE ON PROPERTY MANAGEMENT
"""
segments = aligner ( speech , text )
print ( segments )
# utt1 utt 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 utt 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 utt 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 utt 4.20 6.10 -0.4899 AND CONCENTRATE ON PROPERTY MANAGEMENT
Menyelaraskan juga bekerja dengan fragmen teks. Untuk ini, atur opsi gratis_blank
yang memungkinkan melewatkan bagian audio yang tidak terkait tanpa penalti. Dimungkinkan juga untuk menghilangkan nama ucapan di awal setiap baris dengan mengatur kaldi_style_text
menjadi false.
aligner . set_config ( gratis_blank = True , kaldi_style_text = False )
text = [ "SALE OF THE HOTELS" , "PROPERTY MANAGEMENT" ]
segments = aligner ( speech , text )
print ( segments )
# utt_0000 utt 0.37 1.72 -2.0651 SALE OF THE HOTELS
# utt_0001 utt 4.70 6.10 -5.0566 PROPERTY MANAGEMENT
Skrip espnet2/bin/asr_align.py
menggunakan antarmuka yang serupa. Untuk menyelaraskan ucapan:
# ASR model and config files from pre-trained model (e.g., from cachedir):
asr_config= < path-to-model > /config.yaml
asr_model= < path-to-model > /valid. * best.pth
# prepare the text file
wav= " test_utils/ctc_align_test.wav "
text= " test_utils/ctc_align_text.txt "
cat << EOF > ${text}
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE
utt5 ON PROPERTY MANAGEMENT
EOF
# obtain alignments:
python espnet2/bin/asr_align.py --asr_train_config ${asr_config} --asr_model_file ${asr_model} --audio ${wav} --text ${text}
# utt1 ctc_align_test 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 ctc_align_test 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 ctc_align_test 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 ctc_align_test 4.20 4.97 -0.6017 AND CONCENTRATE
# utt5 ctc_align_test 4.97 6.10 -0.3477 ON PROPERTY MANAGEMENT
Output skrip dapat dialihkan ke file segments
dengan menambahkan --output segments
. Setiap baris berisi nama file/ucapan, ucapan awal dan akhir dalam detik, dan skor kepercayaan diri; Secara opsional juga teks ucapan. Skor kepercayaan adalah probabilitas dalam ruang log yang menunjukkan seberapa baik ucapan itu selaras. Jika perlu, hapus ucapan yang buruk:
min_confidence_score=-7
# here, we assume that the output was written to the file `segments`
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' segments
Lihat dokumentasi modul untuk informasi lebih lanjut. Disarankan untuk menggunakan model dengan encoder berbasis RNN (seperti BLSTMP) untuk menyelaraskan file audio besar; Daripada menggunakan model transformator yang memiliki konsumsi memori tinggi pada data audio yang lebih panjang. Laju sampel audio harus konsisten dengan data yang digunakan dalam pelatihan; Sesuaikan dengan sox
jika diperlukan.
Juga, kami dapat menggunakan alat ini untuk memberikan informasi segmentasi tingkat token jika kami menyiapkan daftar token alih-alih ucapan dalam file text
. Lihat diskusi di #4278 (komentar).
@inproceedings{watanabe2018espnet,
author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson {Enrique Yalta Soplin} and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
title={{ESPnet}: End-to-End Speech Processing Toolkit},
year={2018},
booktitle={Proceedings of Interspeech},
pages={2207--2211},
doi={10.21437/Interspeech.2018-1456},
url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={7654--7658},
year={2020},
organization={IEEE}
}
@inproceedings{inaguma-etal-2020-espnet,
title = "{ESP}net-{ST}: All-in-One Speech Translation Toolkit",
author = "Inaguma, Hirofumi and
Kiyono, Shun and
Duh, Kevin and
Karita, Shigeki and
Yalta, Nelson and
Hayashi, Tomoki and
Watanabe, Shinji",
booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.acl-demos.34",
pages = "302--311",
}
@article{hayashi2021espnet2,
title={{ESP}net2-{TTS}: Extending the edge of {TTS} research},
author={Hayashi, Tomoki and Yamamoto, Ryuichi and Yoshimura, Takenori and Wu, Peter and Shi, Jiatong and Saeki, Takaaki and Ju, Yooncheol and Yasuda, Yusuke and Takamichi, Shinnosuke and Watanabe, Shinji},
journal={arXiv preprint arXiv:2110.07840},
year={2021}
}
@inproceedings{li2020espnet,
title={{ESPnet-SE}: End-to-End Speech Enhancement and Separation Toolkit Designed for {ASR} Integration},
author={Chenda Li and Jing Shi and Wangyou Zhang and Aswin Shanmugam Subramanian and Xuankai Chang and Naoyuki Kamo and Moto Hira and Tomoki Hayashi and Christoph Boeddeker and Zhuo Chen and Shinji Watanabe},
booktitle={Proceedings of IEEE Spoken Language Technology Workshop (SLT)},
pages={785--792},
year={2021},
organization={IEEE},
}
@inproceedings{arora2021espnet,
title={{ESPnet-SLU}: Advancing Spoken Language Understanding through ESPnet},
author={Arora, Siddhant and Dalmia, Siddharth and Denisov, Pavel and Chang, Xuankai and Ueda, Yushi and Peng, Yifan and Zhang, Yuekai and Kumar, Sujay and Ganesan, Karthik and Yan, Brian and others},
booktitle={ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={7167--7171},
year={2022},
organization={IEEE}
}
@inproceedings{shi2022muskits,
author={Shi, Jiatong and Guo, Shuai and Qian, Tao and Huo, Nan and Hayashi, Tomoki and Wu, Yuning and Xu, Frank and Chang, Xuankai and Li, Huazhe and Wu, Peter and Watanabe, Shinji and Jin, Qin},
title={{Muskits}: an End-to-End Music Processing Toolkit for Singing Voice Synthesis},
year={2022},
booktitle={Proceedings of Interspeech},
pages={4277-4281},
url={https://www.isca-speech.org/archive/pdfs/interspeech_2022/shi22d_interspeech.pdf}
}
@inproceedings{lu22c_interspeech,
author={Yen-Ju Lu and Xuankai Chang and Chenda Li and Wangyou Zhang and Samuele Cornell and Zhaoheng Ni and Yoshiki Masuyama and Brian Yan and Robin Scheibler and Zhong-Qiu Wang and Yu Tsao and Yanmin Qian and Shinji Watanabe},
title={{ESPnet-SE++: Speech Enhancement for Robust Speech Recognition, Translation, and Understanding}},
year=2022,
booktitle={Proc. Interspeech 2022},
pages={5458--5462},
}
@inproceedings{gao2023euro,
title={{EURO: ESP}net unsupervised {ASR} open-source toolkit},
author={Gao, Dongji and Shi, Jiatong and Chuang, Shun-Po and Garcia, Leibny Paola and Lee, Hung-yi and Watanabe, Shinji and Khudanpur, Sanjeev},
booktitle={ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={1--5},
year={2023},
organization={IEEE}
}
@inproceedings{peng2023reproducing,
title={Reproducing {W}hisper-style training using an open-source toolkit and publicly available data},
author={Peng, Yifan and Tian, Jinchuan and Yan, Brian and Berrebbi, Dan and Chang, Xuankai and Li, Xinjian and Shi, Jiatong and Arora, Siddhant and Chen, William and Sharma, Roshan and others},
booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
pages={1--8},
year={2023},
organization={IEEE}
}
@inproceedings{sharma2023espnet,
title={ESPnet-{SUMM}: Introducing a novel large dataset, toolkit, and a cross-corpora evaluation of speech summarization systems},
author={Sharma, Roshan and Chen, William and Kano, Takatomo and Sharma, Ruchira and Arora, Siddhant and Watanabe, Shinji and Ogawa, Atsunori and Delcroix, Marc and Singh, Rita and Raj, Bhiksha},
booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
pages={1--8},
year={2023},
organization={IEEE}
}
@article{jung2024espnet,
title={{ESPnet-SPK}: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models},
author={Jung, Jee-weon and Zhang, Wangyou and Shi, Jiatong and Aldeneh, Zakaria and Higuchi, Takuya and Theobald, Barry-John and Abdelaziz, Ahmed Hussen and Watanabe, Shinji},
journal={Proc. Interspeech 2024},
year={2024}
}
@inproceedings{yan-etal-2023-espnet,
title = "{ESP}net-{ST}-v2: Multipurpose Spoken Language Translation Toolkit",
author = "Yan, Brian and
Shi, Jiatong and
Tang, Yun and
Inaguma, Hirofumi and
Peng, Yifan and
Dalmia, Siddharth and
Pol{'a}k, Peter and
Fernandes, Patrick and
Berrebbi, Dan and
Hayashi, Tomoki and
Zhang, Xiaohui and
Ni, Zhaoheng and
Hira, Moto and
Maiti, Soumi and
Pino, Juan and
Watanabe, Shinji",
booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)",
year = "2023",
publisher = "Association for Computational Linguistics",
pages = "400--411",
}