Unduh espnet - Unduh Kode Sumber espnet

espnet

Kode sumber lainnya

version 202409

Unduh

Ubuntu/Python3.11/Pip Ubuntu/python3.10/conda Debian11/Python3.10/Conda Windows/Python3.10/Pip MacOS/Python3.10/Pip macOS/python3.10/conda

Docs | Contoh | Contoh (ESPNET2) | Docker | Buku catatan

ESPNET adalah toolkit pemrosesan ucapan end-to-end yang mencakup pengenalan ucapan end-to-end, teks-ke-pidato, terjemahan ucapan, peningkatan ucapan, Diarization Pembicara, pemahaman bahasa lisan, dan sebagainya. ESPNET menggunakan Pytorch sebagai mesin pembelajaran yang mendalam dan juga mengikuti pemrosesan data gaya Kaldi, ekstraksi/format fitur, dan resep untuk memberikan pengaturan lengkap untuk berbagai percobaan pemrosesan bicara.

Seri tutorial

Tutorial 2019 di interspeech
- Bahan
Tutorial 2021 di CMU
- Video online
- Bahan
Tutorial 2022 di CMU
- Penggunaan ESPNet (ASR sebagai contoh)
  - Video online
  - Bahan
- Tambahkan model/tugas baru ke ESPNet
  - Video online
  - Bahan

Fitur utama

Resep Lengkap Gaya Kaldi

Sumber Dukungan Resep ASR (WSJ, Switchboard, Chime-4/5, Librispeech, Ted, CSJ, AMI, HKUST, VOXForge, Reverb, Gigaspeech, dll.)
Dukungan Jumlah Resep TTS dengan cara yang mirip dengan resep ASR (LJSPEECH, LIBRITTS, M-ADABS, dll.)
Dukungan Jumlah Resep ST (Fisher-Callhome Spanyol, Libri-Trans, IWSLT'18, How2, Must-C, Mboshi-Prancis, dll.)
Jumlah Dukungan Resep MT (IWSLT'14, IWSLT'16, resep ST di atas dll.)
Jumlah dukungan resep SLU (Catslu-Maps, FSC, Grabo, Iemocap, JDCinal, Snips, Slurp, SWBD-DA, dll.)
Sejumlah Dukungan Resep SE/SS (DNS-IS2020, Librimix, SMS-WSJ, VCTK-Noisyreverb, Wham!, Whamr!, WSJ-2MIX, dll.)
Dukungan Resep Konversi Suara (Baseline VCC2020)
Resep Diarization Pembicara Dukungan (Mini_Librispeech, Librimix)
Mendukung resep sintesis suara bernyanyi (ofuton_p_utagoe_db, opencpop, m4singer, dll.)

ASR: Pengenalan Pidato Otomatis

Kinerja canggih dalam beberapa tolok ukur ASR (sebanding/lebih unggul dari hibrida DNN/HMM dan CTC)
Hibrida CTC/Attention berbasis ASR end-to-end
- Pelatihan Cepat/Akurat dengan CTC/Perhatian Multitask Training
- CTC/Perhatian Decoding Sendi untuk Meningkatkan Dekoding Penyelarasan Monotonik
- Encoder: VGG-Like CNN + Birnn (LSTM/GRU), Sub-sampling Birnn (LSTM/GRU), Transformer, Conformer, BranchFormer, atau E-Branchformer
- Decoder: RNN (LSTM/GRU), Transformer, atau S4
Perhatian: Perhatian Flash, Produk titik, Perhatian yang sadar lokasi, varian multi-head
Menggabungkan rnnlm/lstmlm/transformerlm/n-gram hanya dilatih dengan data teks
Batch GPU Decoding
Augmentasi data
ASR end-to-end berbasis transduser
- Arsitektur:
  - Encoder kustom mendukung RNNs, konformer, cabang (w / varian), 1D conv / tdnn.
  - Decoder dengan parameter yang dibagikan di seluruh blok yang mendukung RNN, stateless dengan 1d Conv, Mega, dan RWKV.
  - Pra-encoder: vgg2l atau conv2d tersedia.
- Algoritma pencarian:
  - Pencarian serakah dibatasi untuk satu emisi berdasarkan timestep.
  - Algoritma pencarian balok default [Graves, 2012] tanpa pencarian awalan.
  - Decoding sinkron panjang pelurusan [Saon et al., 2020].
  - Decoding sinkron waktu [Saon et al., 2020].
  - Pencarian balok dibatasi N-langkah dimodifikasi dari [Kim et al., 2020].
  - Pencarian ekspansi adaptif yang dimodifikasi berdasarkan [Kim et al., 2021] dan NSC.
- Fitur:
  - Antarmuka terpadu untuk pengenalan suara offline dan streaming.
  - Pembelajaran multi-tugas dengan berbagai kerugian tambahan:
    - Encoder: CTC, transduser tambahan dan divergensi KL simetris.
    - Decoder: Cross-entropy w/ label smoothing.
  - Transfer pembelajaran dengan model akustik dan/atau model bahasa.
  - Pelatihan dengan metode regularisasi fastemit [Yu et al., 2021].
Silakan merujuk ke halaman tutorial untuk dokumentasi lengkap.
Segmentasi CTC
Model non-autoregresif berdasarkan topeng-ctc
Contoh ASR untuk mendukung dokumentasi bahasa yang terancam punah (silakan merujuk ke EGS/PUEBLA_NAHUATL dan EGS/YOLOXOCHITL_MIXTEC untuk detailnya)
Model pra-terlatih WAV2VEC2.0 sebagai encoder, diimpor dari Fairseq.
Representasi pembelajaran yang di-swadaya sebagai fitur, menggunakan model hulu di S3PRL di frontend.
- Atur frontend ke s3prl
- Pilih model hulu apa pun dengan mengatur frontend_conf ke nama yang sesuai.
Transfer Learning:
- Penggunaan dan transfer yang mudah dari model yang sebelumnya dilatih oleh grup Anda atau model dari ESPNet memeluk repositori wajah.
- Dokumentasi dan contoh mainan dapat dijalankan di Colab.
Transformer streaming/konformer ASR dengan pencarian balok sinkron blockwise.
Perhatian diri yang dibatasi berdasarkan Longformer sebagai enkoder untuk urutan yang panjang
Model Whisper Openai, ASR yang kuat berdasarkan pada pembelajaran multitask skala besar dan lemah

Demonstrasi

Demo ASR real-time dengan ESPNET2
Demo Web Gradio pada memeluk ruang wajah. Lihat demo web
Transformator streaming Demo lokal ASR dengan ESPNET2.

TTS: Teks-ke-Speech

Arsitektur
- Tacotron2
- Transformer-tts
- Fastspeech
- Fastspeech2
- Conformer FastSpeech & Fastspeech2
- Vit
- Jet
Ekstensi multi-speaker & multi-bahasa
- Embedding speaker pra-terlatih (misalnya, vektor x)
- ID speaker menanamkan
- ID Bahasa yang menanamkan
- Global Style Token (GST) Embedding
- Campuran embeddings di atas
Pelatihan ujung ke ujung
- Model teks-ke-ujung ujung ke ujung (misalnya, Vits, Jets, dll.)
- Pelatihan bersama Text2mel dan Vocoder
Berbagai dukungan bahasa
- En / jp / zn / de / ru / dan banyak lagi ...
Integrasi dengan vocoders saraf
- Paralel Wavegan
- Melgan
- Multi-band Melgan
- Hifigan
- Stylemelgan
- Campuran model di atas

Demonstrasi

Demo TTS real-time dengan ESPNET2
Terintegrasi untuk memeluk ruang wajah dengan gradio. Lihat Demo:

Untuk melatih vokoder saraf, silakan periksa repositori berikut:

Kan-Bayashi/Parallelwavegan
R9Y9/WAVENET_VOCODER

SE: Peningkatan wicara (dan pemisahan)

Peningkatan bicara speaker tunggal
Pemisahan pidato multi-speaker
Struktur Encoder-Separator-Dekoder Terpadu untuk Model Time-Domain dan Frekuensi-Domain
- Encoder/Decoder: STFT/ISTFT, Convolution/Transposed-Convolution
- Pemisah: BLSTM, Transformer, Conformer, Tasnet, Dprnn, Skim, Svoice, DC-CRN, DCCRN, Clustering Dalam, Jaringan Penarik yang Dalam, Fasnet, Ifasnet, Beamformers Neural, dll.
Integrasi ASR Fleksibel: Bekerja sebagai tugas individu atau sebagai frontend ASR
Mudah mengimpor model pra-terlatih dari asteroid
- Baik model pra-terlatih dari asteroid dan konfigurasi spesifik didukung.

Demonstrasi

Demo SE Interaktif dengan ESPNET2
Streaming SE Demo dengan ESPNET2

ST: Terjemahan Pidato & MT: Terjemahan Mesin

Kinerja canggih dalam beberapa tolok ukur ST (sebanding/unggul dari ASR dan MT yang bertingkat)
St-to-end st (baru!) Berbasis transformer ST (baru!)
MT End-to-End Berbasis Transformer (Baru!)

VC: Konversi suara

Transformer dan VC paralel berbasis TACOTRON2 menggunakan MEL Spectrogram
VC end-to-end berdasarkan ASR+TTS (Sistem Baseline untuk Tantangan Konversi Suara 2020!)

SLU: pemahaman bahasa lisan

Arsitektur
- Encoder berbasis transformator
- Encoder berbasis konformer
- Encoder Berbasis Cabang
- Encoder Berbasis E-Branchformer
- Decoder Berbasis RNN
- Decoder Berbasis Transformer
Dukung multitasking dengan ASR
- Memprediksi niat dan transkrip ASR
Dukung multitasking dengan NLU
- Model 2 Pass Berbasis Encoder Berkekuatan
Dukungan menggunakan model ASR pra-terlatih
- Hubert
- Wav2vec2
- VQ-APC
- Tera dan banyak lagi ...
Dukungan menggunakan model NLP pra-terlatih
- Bert
- Mpnet dan banyak lagi ...
Berbagai dukungan bahasa
- En / jp / zn / nl / dan banyak lagi ...
Mendukung menggunakan konteks dari ucapan sebelumnya
Mendukung menggunakan tugas lain seperti SE dengan cara pipa
Mendukung dua pass SLU yang menggabungkan demonstrasi transkrip audio dan ASR
Melakukan pemahaman bahasa lisan yang berisik menggunakan model peningkatan bicara diikuti oleh model pemahaman bahasa lisan.
Melakukan pemahaman bahasa lisan dua pass di mana model pass kedua menghadiri informasi akustik dan semantik.
Terintegrasi untuk memeluk ruang wajah dengan gradio. Lihat Demo SLU di berbagai bahasa:

Jumlah: Peringkasan Pidato

Resep Ringkasan Pidato End to End untuk Video Instruksional Menggunakan Perhatian Mandiri Terbatas [Sharma et al., 2022]

SVS: Sintesis Suara Bernyanyi

Kerangka kerja bergabung dari muskit
Arsitektur
- Model non-autoregresif berbasis RNN
- Xiaoice
- Singing Tacotron
- Diffsinger (sedang berlangsung)
- Pengunjung
- Visinger 2 (variasinya dengan vokoder-arsitektur yang berbeda)
Dukung sintesis bernyanyi multi-speaker & multibahasa
- ID speaker menanamkan
- ID Bahasa yang menanamkan
Berbagai dukungan bahasa
- JP / EN / KR / ZH
Integrasi ketat dengan vokoder saraf (sama dengan TTS)

SSL: Pembelajaran yang di-swadaya

Mendukung Hubert Pre-Training:
- Contoh Resep: EGS2/Librispeech/SSL1

UASR: ASR tanpa pengawasan (Euro: ESPNet Pengakuan Tanpa Pengawasan - Sumber Terbuka)

Arsitektur
- WAV2VEC-U (dengan model yang berbeda-beda)
- WAV2VEC-U 2.0 (sedang berlangsung)
Dukungan PrefixBeamSearch dan decoding WFST berbasis K2

S2T: Pidato-ke-Teks dengan Model Multitask Multikual bergaya Whisper

Mereproduksi pelatihan gaya bisikan dari awal menggunakan data publik: OWSM
Mendukung banyak tugas dalam satu model
- Pengenalan ucapan multibahasa
- Terjemahan pidato apa pun
- Identifikasi Bahasa
- Prediksi stempel waktu level ucapan (segmentasi)

Kerangka DNN

Arsitektur jaringan yang fleksibel berkat Chainer dan Pytorch
Pemrosesan front-end fleksibel berkat dukungan Kaldiio dan HDF5
Pemantauan berbasis Tensorboard
Pelatihan skala besar berbasis kecepatan

Espnet2

Lihat ESPNET2.

Independen dari Kaldi/Chainer, tidak seperti ESPNET1
Ekstraksi fitur on-the-fly dan pemrosesan teks saat pelatihan
Mendukung distributedDataParallel dan DaraParallel keduanya
Mendukung beberapa pelatihan node dan terintegrasi dengan Slurm atau MPI
Mendukung pelatihan sharded yang disediakan oleh FairScale
Resep template yang dapat diterapkan untuk semua korpora
Mungkin untuk melatih ukuran korpus apa pun tanpa kesalahan memori CPU
Kebun Binatang Model Espnet
Terintegrasi dengan Wandb

Instalasi

Jika Anda bermaksud melakukan eksperimen penuh, termasuk pelatihan DNN, maka lihat instalasi.

Jika Anda hanya membutuhkan modul Python saja:

 # We recommend you install PyTorch before installing espnet following https://pytorch.org/get-started/locally/
pip install espnet
# To install the latest
# pip install git+https://github.com/espnet/espnet
# To install additional packages
# pip install "espnet[all]"

Jika Anda menggunakan ESPNET1, silakan pasang Chainer dan Cupy.

pip install chainer==6.0.0 cupy==6.0.0    # [Option]

Anda mungkin perlu menginstal beberapa paket tergantung pada setiap tugas. Kami menyiapkan berbagai skrip instalasi di Tools/Installer.

(ESPNET2) Setelah diinstal, jalankan wandb login dan set --use_wandb true untuk mengaktifkan pelacakan berjalan menggunakan W&B.

Wadah Docker

Pergi ke Docker/ dan ikuti instruksi.

Kontribusi

Terima kasih telah meluangkan waktu untuk ESPNet! Setiap kontribusi untuk ESPNet dipersilakan, dan jangan ragu untuk mengajukan pertanyaan atau permintaan masalah. Jika ini kontribusi ESPNet pertama Anda, silakan ikuti panduan kontribusi.

Hasil ASR

memperluas

Kami mencantumkan Tingkat Kesalahan Karakter (CER) dan tingkat kesalahan kata (WER) dari tugas ASR utama.

Tugas	Cer (%)	Wer (%)	Model pra-terlatih
Aishell Dev/Test	4.6/5.1	N/a	link
Espnet2 Aishell Dev/Test	4.1/4.4	N/a	link
Tes/tes suara umum	1.7/1.8	2.2/2.3	link
CSJ eval1/eval2/eval3	5.7/3.8/4.2	N/a	link
ESPNET2 CSJ eval1/eval2/eval3	4.5/3.3/3.6	N/a	link
ESPNET2 Gigaspeech Dev/Test	N/a	10.6/10.5	link
HKUST DEV	23.5	N/a	link
ESPNET2 HKUST DEV	21.2	N/a	link
Librispeech dev_clean/dev_other/test_clean/test_other	N/a	1.9/4.9/2.1/4.9	link
ESPNET2 Librispeech dev_clean/dev_other/test_clean/test_other	0.6/1.5/0.6/1.4	1.7/3.4/1.8/3.6	link
Switchboard (Eval2000) CallHM/SWBD	N/a	14.0/6.8	link
ESPNET2 Switchboard (Eval2000) CallHM/SWBD	N/a	13.4/7.3	link
Tedlium2 dev/tes	N/a	8.6/7.2	link
ESPNET2 TEDLIUM2 DEV/TEST	N/a	7.3/7.1	link
Tedlium3 dev/tes	N/a	9.6/7.6	link
WSJ DEV93/EVAL92	3.2/2.1	7.0/4.7	N/a
ESPNET2 WSJ DEV93/EVAL92	1.1/0.8	2.8/1.8	link

Perhatikan bahwa kinerja tugas CSJ, HKUST, dan Librispeech secara signifikan ditingkatkan dengan menggunakan jaringan lebar (#Units = 1024) dan unit subword besar jika perlu dilaporkan oleh RWTH.

Jika Anda ingin memeriksa hasil resep lain, silakan periksa egs/<name_of_recipe>/asr1/RESULTS.md .

Demo ASR

memperluas

Anda dapat mengenali pidato dalam file WAV menggunakan model pra-terlatih. Buka direktori resep dan jalankan utils/recog_wav.sh sebagai berikut:

 # go to the recipe directory and source path of espnet tools
cd egs/tedlium2/asr1 && . ./path.sh
# let's recognize speech!
recog_wav.sh --models tedlium2.transformer.v1 example.wav

di mana example.wav adalah file wav yang harus dikenali. Tingkat pengambilan sampel harus konsisten dengan data yang digunakan dalam pelatihan.

Model pra-terlatih yang tersedia dalam skrip demo tercantum di bawah ini.

Model	Catatan
tedlium2.rnn.v1	Streaming decoding berdasarkan VAD berbasis CTC
tedlium2.rnn.v2	Decoding streaming berdasarkan VAD berbasis CTC (decoding batch)
tedlium2.transformer.v1	Transformator perhatian bersama-CTC dilatih pada tedlium 2
tedlium3.transformer.v1	Transformator perhatian bersama-CTC dilatih pada Tedlium 3
librispeech.transformer.v1	Transformator perhatian bersama-CTC dilatih di Librispeech
CommonVoice.transformer.v1	Transformator perhatian bersama-CTC yang dilatih pada Commonvoice
csj.transformer.v1	Transformator perhatian bersama-CTC dilatih di CSJ
csj.rnn.v1	Perhatian bersama-CTC VGGBLSTM dilatih di CSJ

Hasil SE

memperluas

Kami mencantumkan hasil dari tiga model berbeda di WSJ0-2MIX, yang merupakan salah satu dataset patokan yang paling banyak digunakan untuk pemisahan wicara.

Model	Stoi	Sar	Sdr	PAK
TF Masking	0.89	11.40	10.24	18.04
Conv-Tasnet	0.95	16.62	15.94	25.90
DPRNN-TASNET	0.96	18.82	18.29	28.92

SE DEMO

memperluas

Anda dapat mencoba demo interaktif dengan Google Colab. Silakan klik tombol berikut untuk mendapatkan akses ke demo.

Ini didasarkan pada ESPNET2. Model pra-terlatih tersedia untuk peningkatan ucapan dan tugas pemisahan bicara.

Demo Streaming Pemisahan Pidato:

Hasil ST

memperluas

Kami mencantumkan 4-gram bleu dari tugas-tugas utama.

sistem ujung ke ujung

Tugas	Bleu	Model pra-terlatih
Fisher-Callhome Spanyol Fisher_test (ES-> EN)	51.03	link
Fisher-Callhome Spanyol callhome_evltest (es-> en)	20.44	link
Uji Libri-Trans (en-> FR)	16.70	link
How2 dev5 (en-> pt)	45.68	link
Must-C TST-Common (en-> de)	22.91	link
Mboshi-Prancis Dev (Fr-> Mboshi)	6.18	N/a

Sistem Cascade

Tugas	Bleu	Model pra-terlatih
Fisher-Callhome Spanyol Fisher_test (ES-> EN)	42.16	N/a
Fisher-Callhome Spanyol callhome_evltest (es-> en)	19.82	N/a
Uji Libri-Trans (en-> FR)	16.96	N/a
How2 dev5 (en-> pt)	44.90	N/a
Must-C TST-Common (en-> de)	23.65	N/a

Jika Anda ingin memeriksa hasil resep lain, silakan periksa egs/<name_of_recipe>/st1/RESULTS.md .

Demo St.

memperluas

( Baru! ) Kami membuat demonstrasi E2E-St + TTS real-time baru di Google Colab. Harap akses buku catatan dari tombol berikut dan nikmati terjemahan ucapan-ke-speech real-time!

Anda dapat menerjemahkan pidato dalam file WAV menggunakan model pra-terlatih. Buka direktori resep dan jalankan utils/translate_wav.sh sebagai berikut:

 # Go to recipe directory and source path of espnet tools
cd egs/fisher_callhome_spanish/st1 && . ./path.sh
# download example wav file
wget -O - https://github.com/espnet/espnet/files/4100928/test.wav.tar.gz | tar zxvf -
# let's translate speech!
translate_wav.sh --models fisher_callhome_spanish.transformer.v1.es-en test.wav

di mana test.wav adalah file wav yang akan diterjemahkan. Tingkat pengambilan sampel harus konsisten dengan data yang digunakan dalam pelatihan.

Model pra-terlatih yang tersedia dalam skrip demo terdaftar di bawah ini.

Model	Catatan
fisher_callhome_spanish.transformer.v1	Transformer-st terlatih di fisher-callhome spanyol es-> en

Hasil MT

memperluas

Tugas	Bleu	Model pra-terlatih
Fisher-Callhome Spanyol Fisher_test (ES-> EN)	61.45	link
Fisher-Callhome Spanyol callhome_evltest (es-> en)	29.86	link
Uji Libri-Trans (en-> FR)	18.09	link
How2 dev5 (en-> pt)	58.61	link
Must-C TST-Common (en-> de)	27.63	link
IWSLT'14 Test2014 (en-> de)	24.70	link
IWSLT'14 TEST2014 (DE-> EN)	29.22	link
IWSLT'14 TEST2014 (DE-> EN)	32.2	link
IWSLT'16 Test2014 (en-> de)	24.05	link
IWSLT'16 TEST2014 (DE-> EN)	29.13	link

Hasil TTS

Espnet2

Anda dapat mendengarkan sampel yang dihasilkan dalam url berikut.

ESPNET2 TTS menghasilkan sampel

Perhatikan bahwa pada generasi, kami menggunakan Griffin-Lim ( wav/ ) dan paralel Wavegan ( wav_pwg/ ).

Anda dapat mengunduh model pra-terlatih melalui espnet_model_zoo .

Kebun Binatang Model Espnet
Daftar Model Pra-Terlatih

Anda dapat mengunduh Vocoders Pra-Latih melalui kan-bayashi/ParallelWaveGAN .

Kan-Bayashi/Parallelwavegan
Daftar Vokoder Pra-Terlatih

Espnet1

Catatan: Kami sedang bergerak pada pengembangan berbasis ESPNET2 untuk TTS. Silakan periksa hasil terbaru dalam hasil ESPNET2 di atas.

Anda dapat mendengarkan sampel kami di Demo HP ESPNET-TTS-sampel. Di sini kami mencantumkan beberapa yang terkenal:

Penutur bahasa Inggris tunggal tacotron2
Pembicara Jepang tunggal Tacotron2
Tunggal bahasa lain penutur tacotron2
Multi English Speaker Tacotron2
Transformator penutur bahasa Inggris tunggal
Fastspeech penutur bahasa Inggris tunggal
Transformator penutur multi bahasa Inggris
Fastspeech speaker Italia tunggal
Transformator pembicara mandarin tunggal
Fastspeech speaker mandarin tunggal
Transformator pembicara multi Jepang
Model penutur bahasa Inggris tunggal dengan Wavegan paralel
Fastspeech berbasis distilasi pembicara bahasa Inggris tunggal

Anda dapat mengunduh semua model pra-terlatih dan sampel yang dihasilkan:

Semua model E2E-TTS yang sudah terlatih
Semua sampel yang dihasilkan

Perhatikan bahwa dalam sampel yang dihasilkan, kami menggunakan vokoder berikut: Griffin-Lim ( GL ), Wavenet Vocoder ( Wavenet ), paralel Wavegan ( paralelwavegan ), dan Melgan ( Melgan ). Vokoder saraf didasarkan pada repositori berikut.

Kan-Bayashi / Parallelwavegan: Paralel Wavegan / Melgan / Multi-Band Melgan
R9Y9/WAVENET_VOCODER: Campuran 16 bit dari Vocoder Wavenet Logistik
kan-bayashi/pytorchwavenetvocoder: 8 bit softmax wavenet vocoder dengan pembentukan noise

Jika Anda ingin membangun vocoder saraf Anda sendiri, silakan periksa repositori di atas. Kan-Bayashi/Parallelwavegan menyediakan manual tentang cara mendekode fitur model ESPNET-TTS dengan vokoder saraf. Silakan periksa.

Di sini kami mencantumkan semua vokoder saraf pra-terlatih. Silakan unduh dan nikmati generasi pidato berkualitas tinggi!

Tautan model	Lang	FS [Hz]	Range Mel [Hz]	Fft / shift / win [pt]	Tipe model
ljspeech.wavenet.softmax.ns.v1	En	22.05k	Tidak ada	1024 /256 / tidak ada	Softmax Wavenet
ljspeech.wavenet.mol.v1	En	22.05k	Tidak ada	1024 /256 / tidak ada	Mol Wavenet
ljspeech.parallel_wavegan.v1	En	22.05k	Tidak ada	1024 /256 / tidak ada	Paralel Wavegan
ljspeech.wavenet.mol.v2	En	22.05k	80-7600	1024 /256 / tidak ada	Mol Wavenet
ljspeech.parallel_wavegan.v2	En	22.05k	80-7600	1024 /256 / tidak ada	Paralel Wavegan
ljspeech.melgan.v1	En	22.05k	80-7600	1024 /256 / tidak ada	Melgan
ljspeech.melgan.v3	En	22.05k	80-7600	1024 /256 / tidak ada	Melgan
libts.wavenet.mol.v1	En	24K	Tidak ada	1024 /256 / tidak ada	Mol Wavenet
jsut.wavenet.mol.v1	Jp	24K	80-7600	2048 / 300/1200	Mol Wavenet
jsut.parallel_wavegan.v1	Jp	24K	80-7600	2048 / 300/1200	Paralel Wavegan
csmsc.wavenet.mol.v1	ZH	24K	80-7600	2048 / 300/1200	Mol Wavenet
csmsc.parallel_wavegan.v1	ZH	24K	80-7600	2048 / 300/1200	Paralel Wavegan

Jika Anda ingin menggunakan vocoders pra-terlatih di atas, harap persis mencocokkan pengaturan fitur dengan mereka.

Demo tts

Espnet2

Anda dapat mencoba demo real-time di Google Colab. Harap akses buku catatan dari tombol berikut dan nikmati sintesis real-time!

Demo TTS real-time dengan ESPNET2

Model Inggris, Jepang, dan Mandarin tersedia dalam demo.

Espnet1

Catatan: Kami sedang bergerak pada pengembangan berbasis ESPNET2 untuk TTS. Silakan periksa demo terbaru dalam demo ESPNET2 di atas.

Anda dapat mencoba demo real-time di Google Colab. Harap akses notebook dari tombol berikut dan nikmati sintesis real-time.

Demo TTS real-time dengan ESPNET1

Kami juga menyediakan skrip shell untuk melakukan sintesis. Buka direktori resep dan jalankan utils/synth_wav.sh sebagai berikut:

 # Go to recipe directory and source path of espnet tools
cd egs/ljspeech/tts1 && . ./path.sh
# We use an upper-case char sequence for the default model.
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example.txt
# let's synthesize speech!
synth_wav.sh example.txt

# Also, you can use multiple sentences
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example_multi.txt
echo " TEXT TO SPEECH IS A TECHNIQUE TO CONVERT TEXT INTO SPEECH. " >> example_multi.txt
synth_wav.sh example_multi.txt

Anda dapat mengubah model pra-terlatih sebagai berikut:

synth_wav.sh --models ljspeech.fastspeech.v1 example.txt

Sintesis bentuk gelombang dilakukan dengan algoritma Griffin-Lim dan vokoder saraf (Wavenet dan paralelwavegan). Anda dapat mengubah model Vocoder yang terlatih sebagai berikut:

synth_wav.sh --vocoder_models ljspeech.wavenet.mol.v1 example.txt

Wavenet Vocoder memberikan pidato berkualitas tinggi, tetapi butuh waktu untuk menghasilkan.

Lihat detail lebih lanjut atau model yang tersedia melalui --help .

synth_wav.sh --help

Hasil VC

memperluas

VC berbasis transformator dan Tacotron2

Anda dapat mendengarkan beberapa sampel di halaman web demo.

Cascade ASR+TTS sebagai salah satu sistem dasar VCC2020

The Voice Conversion Challenge 2020 (VCC2020) mengadopsi ESPNET untuk membangun sistem dasar berbasis ujung ke ujung. Di VCC2020, tujuannya adalah VC nonparalel intra/lintas-bahasa. Anda dapat mengunduh sampel yang dikonversi dari sistem dasar Cascade ASR+TTS di sini.

Hasil SLU

memperluas

Kami mencantumkan kinerja pada berbagai tugas dan dataset SLU menggunakan metrik yang dilaporkan dalam kertas dataset asli

Tugas	Dataset	Metrik	Hasil	Model pra-terlatih
Klasifikasi Inten	MENCUCUP	ACC	86.3	link
Klasifikasi Inten	FSC	ACC	99.6	link
Klasifikasi Inten	Set speaker fsc tak terlihat	ACC	98.6	link
Klasifikasi Inten	Set ucapan fsc unseen	ACC	86.4	link
Klasifikasi Inten	Set Pembicara Tantangan FSC	ACC	97.5	link
Klasifikasi Inten	Set ucapan tantangan fsc	ACC	78.5	link
Klasifikasi Inten	Snips	F1	91.7	link
Klasifikasi Inten	Grabo (NL)	ACC	97.2	link
Klasifikasi Inten	Cat Slu Map (Zn)	ACC	78.9	link
Klasifikasi Inten	Perintah Google Speech	ACC	98.4	link
Pengisian slot	MENCUCUP	SLU-F1	71.9	link
Klasifikasi Undang -Undang Dialog	Switchboard	ACC	67.5	link
Klasifikasi Undang -Undang Dialog	JDCinal (JP)	ACC	67.4	link
Pengenalan emosi	Iemocap	ACC	69.4	link
Pengenalan emosi	SWBD_SENTENTEN	F1 makro	61.4	link
Pengenalan emosi	SLUE_VOXCELEB	F1 makro	44.0	link

Jika Anda ingin memeriksa hasil resep lain, silakan periksa egs2/<name_of_recipe>/asr1/RESULTS.md .

Demo Segmentasi CTC

Espnet1

Segmentasi CTC menentukan segmen ucapan dalam file audio. Segmen ucapan yang selaras merupakan label set data pidato.

Sebagai demo, kami menyelaraskan start dan akhir ucapan dalam file audio ctc_align_test.wav , menggunakan contoh skrip utils/asr_align_wav.sh . Untuk persiapan, atur direktori data:

 cd egs/tedlium2/align1/
# data directory
align_dir=data/demo
mkdir -p ${align_dir}
# wav file
base=ctc_align_test
wav=../../../test_utils/ ${base} .wav
# recipe files
echo " batchsize: 0 " > ${align_dir} /align.yaml

cat << EOF > ${align_dir} /utt_text
${base} THE SALE OF THE HOTELS
${base} IS PART OF HOLIDAY'S STRATEGY
${base} TO SELL OFF ASSETS
${base} AND CONCENTRATE
${base} ON PROPERTY MANAGEMENT
EOF

Di sini, utt_text adalah file yang berisi daftar ucapan. Pilih model ASR pra-terlatih yang mencakup lapisan CTC untuk menemukan segmen ucapan:

 # pre-trained ASR model
model=wsj.transformer_small.v1
mkdir ./conf && cp ../../wsj/asr1/conf/no_preprocess.yaml ./conf

../../../utils/asr_align_wav.sh 
    --models ${model} 
    --align_dir ${align_dir} 
    --align_config ${align_dir} /align.yaml 
    ${wav} ${align_dir} /utt_text

Segmen ditulis ke aligned_segments sebagai daftar nama file/ucapan, ucapan awal dan akhir dalam detik, dan skor kepercayaan diri. Skor kepercayaan adalah probabilitas dalam ruang log yang menunjukkan seberapa baik ucapan itu selaras. Jika perlu, hapus ucapan yang buruk:

min_confidence_score=-5
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' ${align_dir} /aligned_segments

Script demo utils/ctc_align_wav.sh menggunakan model ASR yang sudah terlatih (lihat daftar di atas untuk lebih banyak model). Disarankan untuk menggunakan model dengan encoder berbasis RNN (seperti BLSTMP) untuk menyelaraskan file audio besar; Daripada menggunakan model transformator dengan konsumsi memori yang tinggi pada data audio yang lebih panjang. Laju sampel audio harus konsisten dengan data yang digunakan dalam pelatihan; Sesuaikan dengan sox jika diperlukan. Resep lengkap dalam egs/tedlium2/align1/ .

Espnet2

Segmentasi CTC menentukan segmen ucapan dalam file audio. Segmen ucapan yang selaras merupakan label set data pidato.

Sebagai demo, kami menyelaraskan awal dan akhir ucapan dalam file audio ctc_align_test.wav . Ini dapat dilakukan baik langsung dari baris perintah Python atau menggunakan skrip espnet2/bin/asr_align.py .

Dari antarmuka baris perintah Python:

 # load a model with character tokens
from espnet_model_zoo . downloader import ModelDownloader
d = ModelDownloader ( cachedir = "./modelcache" )
wsjmodel = d . download_and_unpack ( "kamo-naoyuki/wsj" )
# load the example file included in the ESPnet repository
import soundfile
speech , rate = soundfile . read ( "./test_utils/ctc_align_test.wav" )
# CTC segmentation
from espnet2 . bin . asr_align import CTCSegmentation
aligner = CTCSegmentation ( ** wsjmodel , fs = rate )
text = """
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE ON PROPERTY MANAGEMENT
"""
segments = aligner ( speech , text )
print ( segments )
# utt1 utt 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 utt 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 utt 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 utt 4.20 6.10 -0.4899 AND CONCENTRATE ON PROPERTY MANAGEMENT

Menyelaraskan juga bekerja dengan fragmen teks. Untuk ini, atur opsi gratis_blank yang memungkinkan melewatkan bagian audio yang tidak terkait tanpa penalti. Dimungkinkan juga untuk menghilangkan nama ucapan di awal setiap baris dengan mengatur kaldi_style_text menjadi false.

 aligner . set_config ( gratis_blank = True , kaldi_style_text = False )
text = [ "SALE OF THE HOTELS" , "PROPERTY MANAGEMENT" ]
segments = aligner ( speech , text )
print ( segments )
# utt_0000 utt 0.37 1.72 -2.0651 SALE OF THE HOTELS
# utt_0001 utt 4.70 6.10 -5.0566 PROPERTY MANAGEMENT

Skrip espnet2/bin/asr_align.py menggunakan antarmuka yang serupa. Untuk menyelaraskan ucapan:

 # ASR model and config files from pre-trained model (e.g., from cachedir):
asr_config= < path-to-model > /config.yaml
asr_model= < path-to-model > /valid. * best.pth
# prepare the text file
wav= " test_utils/ctc_align_test.wav "
text= " test_utils/ctc_align_text.txt "
cat << EOF > ${text}
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE
utt5 ON PROPERTY MANAGEMENT
EOF
# obtain alignments:
python espnet2/bin/asr_align.py --asr_train_config ${asr_config} --asr_model_file ${asr_model} --audio ${wav} --text ${text}
# utt1 ctc_align_test 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 ctc_align_test 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 ctc_align_test 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 ctc_align_test 4.20 4.97 -0.6017 AND CONCENTRATE
# utt5 ctc_align_test 4.97 6.10 -0.3477 ON PROPERTY MANAGEMENT

Output skrip dapat dialihkan ke file segments dengan menambahkan --output segments . Setiap baris berisi nama file/ucapan, ucapan awal dan akhir dalam detik, dan skor kepercayaan diri; Secara opsional juga teks ucapan. Skor kepercayaan adalah probabilitas dalam ruang log yang menunjukkan seberapa baik ucapan itu selaras. Jika perlu, hapus ucapan yang buruk:

min_confidence_score=-7
# here, we assume that the output was written to the file `segments`
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' segments

Lihat dokumentasi modul untuk informasi lebih lanjut. Disarankan untuk menggunakan model dengan encoder berbasis RNN (seperti BLSTMP) untuk menyelaraskan file audio besar; Daripada menggunakan model transformator yang memiliki konsumsi memori tinggi pada data audio yang lebih panjang. Laju sampel audio harus konsisten dengan data yang digunakan dalam pelatihan; Sesuaikan dengan sox jika diperlukan.

Juga, kami dapat menggunakan alat ini untuk memberikan informasi segmentasi tingkat token jika kami menyiapkan daftar token alih-alih ucapan dalam file text . Lihat diskusi di #4278 (komentar).

Kutipan

 @inproceedings{watanabe2018espnet,
  author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson {Enrique Yalta Soplin} and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
  title={{ESPnet}: End-to-End Speech Processing Toolkit},
  year={2018},
  booktitle={Proceedings of Interspeech},
  pages={2207--2211},
  doi={10.21437/Interspeech.2018-1456},
  url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
  title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
  booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7654--7658},
  year={2020},
  organization={IEEE}
}
@inproceedings{inaguma-etal-2020-espnet,
    title = "{ESP}net-{ST}: All-in-One Speech Translation Toolkit",
    author = "Inaguma, Hirofumi  and
      Kiyono, Shun  and
      Duh, Kevin  and
      Karita, Shigeki  and
      Yalta, Nelson  and
      Hayashi, Tomoki  and
      Watanabe, Shinji",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-demos.34",
    pages = "302--311",
}
@article{hayashi2021espnet2,
  title={{ESP}net2-{TTS}: Extending the edge of {TTS} research},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Yoshimura, Takenori and Wu, Peter and Shi, Jiatong and Saeki, Takaaki and Ju, Yooncheol and Yasuda, Yusuke and Takamichi, Shinnosuke and Watanabe, Shinji},
  journal={arXiv preprint arXiv:2110.07840},
  year={2021}
}
@inproceedings{li2020espnet,
  title={{ESPnet-SE}: End-to-End Speech Enhancement and Separation Toolkit Designed for {ASR} Integration},
  author={Chenda Li and Jing Shi and Wangyou Zhang and Aswin Shanmugam Subramanian and Xuankai Chang and Naoyuki Kamo and Moto Hira and Tomoki Hayashi and Christoph Boeddeker and Zhuo Chen and Shinji Watanabe},
  booktitle={Proceedings of IEEE Spoken Language Technology Workshop (SLT)},
  pages={785--792},
  year={2021},
  organization={IEEE},
}
@inproceedings{arora2021espnet,
  title={{ESPnet-SLU}: Advancing Spoken Language Understanding through ESPnet},
  author={Arora, Siddhant and Dalmia, Siddharth and Denisov, Pavel and Chang, Xuankai and Ueda, Yushi and Peng, Yifan and Zhang, Yuekai and Kumar, Sujay and Ganesan, Karthik and Yan, Brian and others},
  booktitle={ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7167--7171},
  year={2022},
  organization={IEEE}
}
@inproceedings{shi2022muskits,
  author={Shi, Jiatong and Guo, Shuai and Qian, Tao and Huo, Nan and Hayashi, Tomoki and Wu, Yuning and Xu, Frank and Chang, Xuankai and Li, Huazhe and Wu, Peter and Watanabe, Shinji and Jin, Qin},
  title={{Muskits}: an End-to-End Music Processing Toolkit for Singing Voice Synthesis},
  year={2022},
  booktitle={Proceedings of Interspeech},
  pages={4277-4281},
  url={https://www.isca-speech.org/archive/pdfs/interspeech_2022/shi22d_interspeech.pdf}
}
@inproceedings{lu22c_interspeech,
  author={Yen-Ju Lu and Xuankai Chang and Chenda Li and Wangyou Zhang and Samuele Cornell and Zhaoheng Ni and Yoshiki Masuyama and Brian Yan and Robin Scheibler and Zhong-Qiu Wang and Yu Tsao and Yanmin Qian and Shinji Watanabe},
  title={{ESPnet-SE++: Speech Enhancement for Robust Speech Recognition, Translation, and Understanding}},
  year=2022,
  booktitle={Proc. Interspeech 2022},
  pages={5458--5462},
}
@inproceedings{gao2023euro,
  title={{EURO: ESP}net unsupervised {ASR} open-source toolkit},
  author={Gao, Dongji and Shi, Jiatong and Chuang, Shun-Po and Garcia, Leibny Paola and Lee, Hung-yi and Watanabe, Shinji and Khudanpur, Sanjeev},
  booktitle={ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={1--5},
  year={2023},
  organization={IEEE}
}
@inproceedings{peng2023reproducing,
  title={Reproducing {W}hisper-style training using an open-source toolkit and publicly available data},
  author={Peng, Yifan and Tian, Jinchuan and Yan, Brian and Berrebbi, Dan and Chang, Xuankai and Li, Xinjian and Shi, Jiatong and Arora, Siddhant and Chen, William and Sharma, Roshan and others},
  booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
  pages={1--8},
  year={2023},
  organization={IEEE}
}
@inproceedings{sharma2023espnet,
  title={ESPnet-{SUMM}: Introducing a novel large dataset, toolkit, and a cross-corpora evaluation of speech summarization systems},
  author={Sharma, Roshan and Chen, William and Kano, Takatomo and Sharma, Ruchira and Arora, Siddhant and Watanabe, Shinji and Ogawa, Atsunori and Delcroix, Marc and Singh, Rita and Raj, Bhiksha},
  booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
  pages={1--8},
  year={2023},
  organization={IEEE}
}
@article{jung2024espnet,
  title={{ESPnet-SPK}: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models},
  author={Jung, Jee-weon and Zhang, Wangyou and Shi, Jiatong and Aldeneh, Zakaria and Higuchi, Takuya and Theobald, Barry-John and Abdelaziz, Ahmed Hussen and Watanabe, Shinji},
  journal={Proc. Interspeech 2024},
  year={2024}
}
@inproceedings{yan-etal-2023-espnet,
    title = "{ESP}net-{ST}-v2: Multipurpose Spoken Language Translation Toolkit",
    author = "Yan, Brian  and
      Shi, Jiatong  and
      Tang, Yun  and
      Inaguma, Hirofumi  and
      Peng, Yifan  and
      Dalmia, Siddharth  and
      Pol{'a}k, Peter  and
      Fernandes, Patrick  and
      Berrebbi, Dan  and
      Hayashi, Tomoki  and
      Zhang, Xiaohui  and
      Ni, Zhaoheng  and
      Hira, Moto  and
      Maiti, Soumi  and
      Pino, Juan  and
      Watanabe, Shinji",
    booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)",
    year = "2023",
    publisher = "Association for Computational Linguistics",
    pages = "400--411",
}

Memperluas

Informasi Tambahan

Versi version 202409
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-02-02
ukuran 23.14MB
Berasal dari Github

Aplikasi Terkait

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
waymo open dataset

Kode sumber lainnya

December 2023 Update
SmartTube

Kode sumber lainnya

24.71 Stable
Sunamu

Kode sumber lainnya

Release 2.2.0
waymo open dataset

Kode sumber lainnya

December 2023 Update
wp functions

Kategori lainnya

1.0.0
termwind

Kategori lainnya

v2.3.0

Informasi Terkait Semua