ดาวน์โหลด espnet - ดาวน์โหลดซอร์สโค้ด espnet

espnet

ซอร์สโค้ดอื่น ๆ

version 202409

ดาวน์โหลด

ubuntu/python3.11/pip ubuntu/python3.10/conda debian11/python3.10/conda windows/python3.10/pip macOS/python3.10/pip macOS/python3.10/conda

เอกสาร | ตัวอย่าง | ตัวอย่าง (ESPNET2) | นักเทียบท่า สมุดบันทึก

ESPNET เป็นชุดเครื่องมือประมวลผลการพูดแบบ end-to-end ที่ครอบคลุมการรู้จำเสียงพูดแบบ end-to-end, ข้อความเป็นคำพูด, การแปลคำพูด, การเพิ่มประสิทธิภาพการพูด, การ diarization ของผู้พูด, การทำความเข้าใจภาษาพูดและอื่น ๆ ESPNET ใช้ Pytorch เป็นเอ็นจิ้นการเรียนรู้อย่างลึกซึ้งและยังติดตามการประมวลผลข้อมูลสไตล์ Kaldi การแยก/รูปแบบคุณสมบัติและสูตรอาหารเพื่อให้การตั้งค่าที่สมบูรณ์สำหรับการทดลองการประมวลผลคำพูดต่างๆ

ชุดการสอน

การสอน 2019 ที่ Interspeech
- วัสดุ
2021 บทช่วยสอนที่ CMU
- วิดีโอออนไลน์
- วัสดุ
2022 บทช่วยสอนที่ CMU
- การใช้ ESPNET (ASR เป็นตัวอย่าง)
  - วิดีโอออนไลน์
  - วัสดุ
- เพิ่มโมเดล/งานใหม่ให้กับ ESPNET
  - วิดีโอออนไลน์
  - วัสดุ

คุณสมบัติที่สำคัญ

สูตรอาหารที่สมบูรณ์แบบ kaldi

สนับสนุนหมายเลขของสูตร ASR (WSJ, สวิตช์บอร์ด, chime-4/5, librispeech, ted, csj, ami, hkust, voxforge, reverb, gigaspeech ฯลฯ )
สนับสนุนจำนวนสูตร TTS ในลักษณะเดียวกันกับสูตร ASR (LJSpeech, Libritts, M-Ailabs ฯลฯ )
สนับสนุนจำนวนสูตร ST (Fisher-Callhome Spanish, Libri-Trans, Iwslt'18, How2, ต้อง C, Mboshi-French ฯลฯ )
สนับสนุนหมายเลขสูตร MT (iwslt'14, iwslt'16, สูตร ST ข้างต้น ฯลฯ )
สนับสนุนจำนวนสูตร SLU (Catslu-Maps, FSC, Grabo, IEMOCAP, JDCINAL, SNIPS, Slurp, SWBD-DA ฯลฯ )
สนับสนุนจำนวนสูตร SE/SS (DNS-IS2020, Librimix, SMS-WSJ, VCTK-Noisyverb, Wham!, Whamr!, WSJ-2MIX ฯลฯ )
สนับสนุนสูตรการแปลงเสียง (VCC2020 Baseline)
สนับสนุนสูตร Diarization ลำโพง (mini_librispeech, librimix)
สนับสนุนสูตรการสังเคราะห์เสียงร้องเพลง (OFUTON_P_UTAGOE_DB, OpenCpop, M4Singer ฯลฯ )

ASR: การรู้จำเสียงพูดอัตโนมัติ

ประสิทธิภาพที่ล้ำสมัย ในการเปรียบเทียบ ASR หลายแบบ (เทียบเท่า/เหนือกว่ากับไฮบริด DNN/HMM และ CTC)
Hybrid CTC/ASR แบบ end-to-end จากความสนใจ
- การฝึกอบรมที่รวดเร็ว/แม่นยำด้วยการฝึกอบรมมัลติทาสก์ CTC/ความสนใจ
- การถอดรหัส CTC/ความสนใจร่วมกันเพื่อเพิ่มการถอดรหัสการจัดตำแหน่ง monotonic
- ตัวเข้ารหัส: CNN + BIRNN (LSTM/GRU), การสุ่มตัวอย่าง sub Birnn (LSTM/GRU), หม้อแปลง, conformer, branchformer หรือ e-branchformer
- ตัวถอดรหัส: RNN (LSTM/GRU), Transformer หรือ S4
ความสนใจ: ความสนใจแฟลช, ผลิตภัณฑ์ DOT, ความสนใจที่รับรู้ตำแหน่ง, ตัวแปรหลายหัว
รวม rnnlm/lstmlm/transformerlm/n-gram ที่ผ่านการฝึกอบรมเฉพาะกับข้อมูลข้อความเท่านั้น
การถอดรหัสชุด GPU
การเพิ่มข้อมูล
ASR แบบ end-to-end ที่ใช้ ทรานสดิวเซอร์
- สถาปัตยกรรม:
  - ตัวเข้ารหัสแบบกำหนดเองที่รองรับ RNNs, conformer, branchformer (w / ตัวแปร), 1d Conv / TDNN
  - ตัวถอดรหัส w/ พารามิเตอร์ที่ใช้ร่วมกันในบล็อกที่รองรับ RNN, ไร้สัญชาติ W/ 1D Conv, Mega และ RWKV
  - pre-encoder: VGG2L หรือ Conv2D พร้อมใช้งาน
- อัลกอริทึมค้นหา:
  - การค้นหาโลภ จำกัด การปล่อยหนึ่งครั้งโดยการกำหนดเวลา
  - อัลกอริทึมการค้นหาลำแสงเริ่มต้น [Graves, 2012] โดยไม่ต้องค้นหาคำนำหน้า
  - การถอดรหัสแบบซิงโครนัสแบบยาว [Saon et al., 2020]
  - การถอดรหัสแบบซิงโครนัสเวลา [Saon et al., 2020]
  - การค้นหาลำแสงแบบ จำกัด N-Step แก้ไขจาก [Kim et al., 2020]
  - การค้นหาการขยายตัวแบบปรับตัวที่ปรับเปลี่ยนตาม [Kim et al., 2021] และ NSC
- คุณสมบัติ:
  - อินเทอร์เฟซแบบครบวงจรสำหรับการจดจำคำพูดแบบออฟไลน์และสตรีมมิ่ง
  - การเรียนรู้แบบหลายงานกับการสูญเสียเสริมต่างๆ:
    - ตัวเข้ารหัส: CTC, ทรานสดิวเซอร์เสริมและความแตกต่าง KL แบบสมมาตร
    - ตัวถอดรหัส: การปรับให้เรียบข้ามด้วยฉลาก
  - ถ่ายโอนการเรียนรู้ด้วยโมเดลอะคูสติกและ/หรือรูปแบบภาษา
  - การฝึกอบรมด้วยวิธีการทำให้เป็นมาตรฐานแบบ fastemit [Yu et al., 2021]
โปรดดูหน้าการสอนสำหรับเอกสารที่สมบูรณ์
การแบ่งส่วน CTC
โมเดลที่ไม่ใช่อูเทอเรติกโดยใช้ Mask-CTC
ตัวอย่าง ASR สำหรับการสนับสนุนเอกสารภาษาที่ใกล้สูญพันธุ์ (โปรดดู EGS/PUEBLA_NAHUATL และ EGS/YOLOXOCHITL_MIXTEC สำหรับรายละเอียด)
WAV2VEC2.0 โมเดลที่ผ่านการฝึกอบรมล่วงหน้าเป็นตัวเข้ารหัสนำเข้าจาก Fairseq
การเป็นตัวแทนการเรียนรู้ด้วยตนเองเป็นคุณสมบัติโดยใช้โมเดลต้นน้ำใน S3PRL ในส่วนหน้า
- กำหนด frontend เป็น s3prl
- เลือกโมเดลต้นน้ำใด ๆ โดยการตั้งค่า frontend_conf เป็นชื่อที่เกี่ยวข้อง
ถ่ายโอนการเรียนรู้:
- การใช้งานง่ายและถ่ายโอนจากรุ่นก่อนหน้านี้ที่ได้รับการฝึกฝนโดยกลุ่มหรือรุ่นของคุณจากที่เก็บหน้า espnet กอดใบหน้า
- เอกสารและตัวอย่างของเล่นที่ทำงานได้บน colab
สตรีมมิ่ง Transformer/Conformer ASR พร้อมการค้นหาลำแสงแบบซิงโครนัสแบบ blockwise
การ จำกัด ตนเองที่ จำกัด โดยใช้ Longformer เป็นตัวเข้ารหัสสำหรับลำดับที่ยาวนาน
Openai Whisper Model ที่แข็งแกร่ง ASR บนพื้นฐานของการเรียนรู้มัลติทาสก์ขนาดใหญ่ที่มีขนาดใหญ่

สาธิต

การสาธิต ASR แบบเรียลไทม์กับ ESPNET2
การสาธิตเว็บ Gradio เกี่ยวกับการกอดพื้นที่ใบหน้า ตรวจสอบการสาธิตเว็บ
สตรีมมิ่งหม้อแปลง ASR การสาธิตท้องถิ่นกับ ESPNET2

TTS: ข้อความเป็นคำพูด

สถาปัตยกรรม
- Tacotron2
- Transformer-TTS
- จารึก
- FastSpeech2
- conformer fastspeech & fastspeech2
- เข้าด้วยกัน
- เครื่องบินไอพ่น
ส่วนขยายหลายลำโพงและหลายภาษา
- การฝังลำโพงที่ผ่านการฝึกอบรมมาก่อน (เช่น X-Vector)
- การฝัง ID ผู้พูด
- การฝังรหัสภาษา
- การฝังโทเค็นสไตล์โลก (GST)
- ผสมของ embeddings ข้างต้น
การฝึกอบรมแบบ end-to-end
- รุ่น text-to-to-to-wav (เช่น Vits, Jets ฯลฯ )
- การฝึกอบรมร่วมกันของ Text2mel และ Vocoder
การสนับสนุนภาษาต่างๆ
- EN / JP / ZN / DE / RU / และอีกมากมาย ...
บูรณาการกับนักร้องประสาท
- Wavegan คู่ขนาน
- Melgan
- Melgan หลายแบนด์
- ไฮเฟก้า
- Stylemelgan
- ผสมของรุ่นข้างต้น

สาธิต

การสาธิต TTS แบบเรียลไทม์กับ ESPNET2
รวมเข้ากับการกอดพื้นที่ใบหน้าด้วย Gradio ดูการสาธิต:

ในการฝึกอบรมผู้ร้องประสาทโปรดตรวจสอบที่เก็บต่อไปนี้:

kan-bayashi/parallelwavegan
r9y9/wavenet_vocoder

SE: การเพิ่มประสิทธิภาพการพูด (และการแยก)

การเพิ่มประสิทธิภาพการพูด
การแยกคำพูดหลายลำโพง
โครงสร้าง unified encoder-sparator-decoder สำหรับโมเดลโดเมนเวลาและโดเมนความถี่
- encoder/decoder: STFT/iSTFT, convolution/transposed-convolution
- ตัวคั่น: BLSTM, หม้อแปลง, conformer, tasnet, dprnn, skim, svoice, dc-crn, dccrn, การจัดกลุ่มลึก, เครือข่ายตัวดึงดูดลึก, Fasnet, Ifasnet, นักเต้นทางประสาท ฯลฯ ฯลฯ
การรวม ASR ที่ยืดหยุ่น: การทำงานเป็นงานส่วนบุคคลหรือเป็นส่วนหน้า ASR
ง่ายต่อการนำเข้าโมเดลที่ผ่านการฝึกอบรมมาก่อนจากดาวเคราะห์น้อย
- ทั้งรุ่นที่ผ่านการฝึกอบรมมาก่อนจากดาวเคราะห์น้อยและการกำหนดค่าเฉพาะได้รับการสนับสนุน

สาธิต

การสาธิต SE แบบโต้ตอบกับ ESPNET2
สตรีมมิ่ง SE ตัวอย่างด้วย ESPNET2

ST: การแปลคำพูด & MT: การแปลเครื่องจักร

ประสิทธิภาพที่ทันสมัย ในหลายเกณฑ์มาตรฐาน St (เทียบเท่า/เหนือกว่า ASR และ MT)
end-end-end-end-end-end-end (ใหม่!)
MT แบบ end-end-end-end-end-end (ใหม่)

VC: การแปลงด้วยเสียง

VC แบบขนานที่ใช้ Transformer และ Tacotron2 โดยใช้ MEL spectrogram
VC แบบ end-to-end ตาม ASR+TTS (ระบบพื้นฐานสำหรับความท้าทายการแปลงด้วยเสียง 2020!)

SLU: ความเข้าใจภาษาพูด

สถาปัตยกรรม
- เครื่องเข้ารหัสที่ใช้หม้อแปลง
- encoder ตาม conformer
- encoder ตาม BranchFormer
- E-Branchformer encoder
- ตัวถอดรหัสตาม RNN
- ตัวถอดรหัส
สนับสนุนการทำงานหลายอย่างด้วย ASR
- ทำนายทั้งความตั้งใจและการถอดเสียง ASR
รองรับการทำงานหลายอย่างด้วย NLU
- แบบจำลองการเข้ารหัสแบบไตร่ตรอง
สนับสนุนการใช้โมเดล ASR ที่ผ่านการฝึกอบรมมาล่วงหน้า
- ฮิวเบิร์ต
- WAV2VEC2
- VQ-APC
- Tera และอีกมากมาย ...
สนับสนุนโดยใช้โมเดล NLP ที่ผ่านการฝึกอบรมมาก่อน
- เบิร์ต
- MPNET และอีกมากมาย ...
การสนับสนุนภาษาต่างๆ
- EN / JP / ZN / NL / และอื่น ๆ ...
สนับสนุนการใช้บริบทจากคำพูดก่อนหน้านี้
รองรับการใช้งานอื่น ๆ เช่น SE ในรูปแบบไปป์ไลน์
รองรับ SLU Pass สองตัวที่รวมการสาธิตการถอดเสียงและ ASR
การทำความเข้าใจภาษาพูดที่มีเสียงดังโดยใช้แบบจำลองการเพิ่มประสิทธิภาพการพูดตามด้วยรูปแบบการทำความเข้าใจภาษาพูด
ทำการทำความเข้าใจภาษาพูดสองครั้งโดยที่โมเดล Pass ที่สองเข้าร่วมกับข้อมูลทั้งเสียงและความหมาย
รวมเข้ากับการกอดพื้นที่ใบหน้าด้วย Gradio ดูการสาธิต SLU ในหลายภาษา:

ผลรวม: การสรุปเสียงพูด

สูตรการสรุปการพูดจบสำหรับการพูดสำหรับวิดีโอการเรียนการสอนโดยใช้การ จำกัด ตนเองที่ จำกัด [Sharma et al., 2022]

SVS: การสังเคราะห์เสียงร้องเพลง

เฟรมเวิร์กผสานจาก Muskits
สถาปัตยกรรม
- โมเดลที่ไม่ใช่ Autoregressive ที่ใช้ RNN
- Xiaoice
- การร้องเพลง
- diffsinger (อยู่ระหว่างดำเนินการ)
- Visinger
- VISINGER 2 (รูปแบบของมันด้วยสถาปัตยกรรมที่แตกต่างกัน)
รองรับการสังเคราะห์การร้องเพลงหลายลำโพงและหลายภาษา
- การฝัง ID ผู้พูด
- การฝังรหัสภาษา
การสนับสนุนภาษาต่างๆ
- jp / en / kr / zh
การบูรณาการอย่างแน่นหนากับนักร้องประสาท (เหมือนกับ TTS)

SSL: การเรียนรู้ที่ดูแลตนเอง

สนับสนุน Hubert Pre-Training:
- ตัวอย่างสูตร: egs2/librispeech/ssl1

UASR: ASR ที่ไม่ได้รับการดูแล (ยูโร: การรับรู้ที่ไม่ได้รับการยอมรับจาก ESPNET - โอเพ่นซอร์ส)

สถาปัตยกรรม
- WAV2VEC-U (มีโมเดลผู้ดูแลตนเองที่แตกต่างกัน)
- WAV2VEC-U 2.0 (กำลังดำเนินการ)
รองรับ PrefixBeamSearch และการถอดรหัส WFST ที่ใช้ K2

S2T: คำพูดเป็นข้อความพร้อมโมเดลมัลติทาสก์หลายภาษากระซิบสไตล์

ทำซ้ำการฝึกอบรมสไตล์กระซิบตั้งแต่เริ่มต้นโดยใช้ข้อมูลสาธารณะ: OWSM
รองรับงานหลายงานในรุ่นเดียว
- การรู้จำเสียงพูดหลายภาษา
- การแปลคำพูดใด ๆ
- การระบุภาษา
- การทำนายการประทับเวลาระดับคำพูด (การแบ่งส่วน)

เฟรมเวิร์ก DNN

สถาปัตยกรรมเครือข่ายที่ยืดหยุ่นด้วย Chainer และ Pytorch
การประมวลผลส่วนหน้าแบบยืดหยุ่นด้วยการสนับสนุน Kaldiio และ HDF5
การตรวจสอบที่ใช้ Tensorboard
การฝึกอบรมขนาดใหญ่ที่ใช้ DeepSpeed

ESPNET2

ดู ESPNET2

เป็นอิสระจาก Kaldi/Chainer ซึ่งแตกต่างจาก ESPNET1
การแยกฟีเจอร์แบบ on-the-fly และการประมวลผลข้อความเมื่อฝึกอบรม
รองรับ DistributedDataparallel และ Daraparallel ทั้งคู่
สนับสนุนการฝึกอบรมหลายโหนดและรวมเข้ากับ Slurm หรือ MPI
สนับสนุนการฝึกอบรมที่ได้รับการสนับสนุนจาก Fairscale
สูตรเทมเพลตที่สามารถนำไปใช้กับ corpora ทั้งหมด
เป็นไปได้ที่จะฝึกอบรมขนาดใด ๆ ของคลังข้อมูลโดยไม่มีข้อผิดพลาดหน่วยความจำ CPU
สวนสัตว์รุ่น ESPNET
รวมเข้ากับ Wandb

การติดตั้ง

หากคุณตั้งใจจะทำการทดลองเต็มรูปแบบรวมถึงการฝึกอบรม DNN ให้ดูการติดตั้ง
หากคุณต้องการโมดูล Python เท่านั้น:
```
 # We recommend you install PyTorch before installing espnet following https://pytorch.org/get-started/locally/
pip install espnet
# To install the latest
# pip install git+https://github.com/espnet/espnet
# To install additional packages
# pip install "espnet[all]"
```
หากคุณใช้ ESPNET1 โปรดติดตั้ง Chainer และ Cupy
```
pip install chainer==6.0.0 cupy==6.0.0    # [Option]
```
คุณอาจต้องติดตั้งแพ็คเกจบางอย่างขึ้นอยู่กับแต่ละงาน เราเตรียมสคริปต์การติดตั้งที่หลากหลายที่เครื่องมือ/ตัวติดตั้ง
(ESPNET2) เมื่อติดตั้งแล้วให้เรียก wandb login และตั้งค่า --use_wandb true เพื่อเปิดใช้งานการติดตามการทำงานโดยใช้ W & B

คอนเทนเนอร์ Docker

ไปที่ Docker/ และทำตามคำแนะนำ

ผลงาน

ขอบคุณที่สละเวลาสำหรับ ESPNET! ยินดีต้อนรับการมีส่วนร่วมใด ๆ กับ ESPNET และอย่าลังเลที่จะถามคำถามหรือคำขอใด ๆ สำหรับปัญหา หากเป็นผลงาน ESPNET ครั้งแรกของคุณโปรดติดตามคู่มือการบริจาค

ผลลัพธ์ ASR

ขยาย

เราแสดงรายการอัตราความผิดพลาดของอักขระ (CER) และอัตราความผิดพลาดของคำ (WER) ของงาน ASR ที่สำคัญ

งาน	cer (%)	wer (%)	รูปแบบที่ผ่านการฝึกอบรมมาก่อน
aishell dev/test	4.6/5.1	N/A	การเชื่อมโยง
ESPNET2 Aishell Dev/Test	4.1/4.4	N/A	การเชื่อมโยง
dev/test เสียงทั่วไป	1.7/1.8	2.2/2.3	การเชื่อมโยง
CSJ eval1/eval2/eval3	5.7/3.8/4.2	N/A	การเชื่อมโยง
ESPNET2 CSJ Eval1/Eval2/Eval3	4.5/3.3/3.6	N/A	การเชื่อมโยง
ESPNET2 Gigaspeech Dev/Test	N/A	10.6/10.5	การเชื่อมโยง
hkust dev	23.5	N/A	การเชื่อมโยง
espnet2 hkust dev	21.2	N/A	การเชื่อมโยง
Librispeech dev_clean/dev_other/test_clean/test_other	N/A	1.9/4.9/2.1/4.9	การเชื่อมโยง
ESPNET2 Librispeech dev_clean/dev_other/test_clean/test_other	0.6/1.5/0.6/1.4	1.7/3.4/1.8/3.6	การเชื่อมโยง
สวิตช์บอร์ด (eval2000) callhm/swbd	N/A	14.0/6.8	การเชื่อมโยง
ESPNET2 Switchboard (Ever2000) Callhm/SWBD	N/A	13.4/7.3	การเชื่อมโยง
tedlium2 dev/test	N/A	8.6/7.2	การเชื่อมโยง
ESPNET2 TEDLIUM2 Dev/Test	N/A	7.3/7.1	การเชื่อมโยง
tedlium3 dev/test	N/A	9.6/7.6	การเชื่อมโยง
WSJ dev93/eval92	3.2/2.1	7.0/4.7	N/A
ESPNET2 WSJ Dev93/Eval92	1.1/0.8	2.8/1.8	การเชื่อมโยง

โปรดทราบว่าประสิทธิภาพของงาน CSJ, HKUST และ Librispeech ได้รับการปรับปรุงอย่างมีนัยสำคัญโดยใช้เครือข่ายกว้าง (#UNITS = 1024) และหน่วย subword ขนาดใหญ่หากจำเป็นต้องรายงานโดย RWTH

หากคุณต้องการตรวจสอบผลลัพธ์ของสูตรอื่น ๆ โปรดตรวจสอบ egs/<name_of_recipe>/asr1/RESULTS.md

การสาธิต ASR

ขยาย

คุณสามารถรับรู้คำพูดในไฟล์ WAV โดยใช้โมเดลที่ผ่านการฝึกอบรมมาก่อน ไปที่ไดเรกทอรีสูตรและเรียกใช้ utils/recog_wav.sh ดังนี้:

 # go to the recipe directory and source path of espnet tools
cd egs/tedlium2/asr1 && . ./path.sh
# let's recognize speech!
recog_wav.sh --models tedlium2.transformer.v1 example.wav

โดยที่ example.wav เป็นไฟล์ WAV ที่จะรับรู้ อัตราการสุ่มตัวอย่างจะต้องสอดคล้องกับข้อมูลที่ใช้ในการฝึกอบรม

โมเดลที่ผ่านการฝึกอบรมมาล่วงหน้าในสคริปต์สาธิตแสดงอยู่ด้านล่าง

แบบอย่าง	หมายเหตุ
tedlium2.rnn.v1	สตรีมมิ่งการถอดรหัสตาม VAD ที่ใช้ CTC
tedlium2.rnn.v2	สตรีมมิ่งการถอดรหัสตาม VAD ที่ใช้ CTC (การถอดรหัสแบทช์)
tedlium2.transformer.v1	หม้อแปลงความสนใจร่วมกันของ CTC ที่ได้รับการฝึกฝนเกี่ยวกับ Tedlium 2
tedlium3.transformer.v1	หม้อแปลงความสนใจร่วมกัน CTC ที่ได้รับการฝึกฝนเกี่ยวกับ Tedlium 3
Librispeech.transformer.v1	Transformer ความสนใจร่วมกันของ CTC ที่ได้รับการฝึกฝนเกี่ยวกับ Librispeech
Commonvoice.transformer.v1	Transformer ความสนใจร่วมกันของ CTC ที่ได้รับการฝึกฝนเกี่ยวกับ Commonvoice
csj.transformer.v1	Transformer ความสนใจร่วมกันของ CTC ที่ได้รับการฝึกฝนเกี่ยวกับ CSJ
csj.rnn.v1	ความสนใจร่วมกัน VGGBLSTM ที่ได้รับการฝึกฝนเกี่ยวกับ CSJ

ผลลัพธ์ SE

ขยาย

เราแสดงรายการผลลัพธ์จากสามรุ่นที่แตกต่างกันใน WSJ0-2MIX ซึ่งเป็นชุดข้อมูลมาตรฐานที่ใช้กันอย่างแพร่หลายที่สุดสำหรับการแยกคำพูด

แบบอย่าง	stoi	SAR	SDR	ท่าน
การปิดบัง TF	0.89	11.40	10.24	18.04
แทสเน็ต	0.95	16.62	15.94	25.90
dprnn-tasnet	0.96	18.82	18.29	28.92

การสาธิต SE

ขยาย

คุณสามารถลองสาธิตการโต้ตอบกับ Google Colab กรุณาคลิกปุ่มต่อไปนี้เพื่อเข้าถึงการสาธิต

มันขึ้นอยู่กับ ESPNET2 โมเดลที่ผ่านการฝึกอบรมมาก่อนมีให้สำหรับทั้งการเพิ่มประสิทธิภาพการพูดและงานแยกคำพูด

การสาธิตการแยกการพูดแบบแยก: การสาธิต:

ผลลัพธ์ ST

ขยาย

เราแสดงรายการ Bleu 4 กรัมของงาน ST ที่สำคัญ

ระบบ end-to-end

งาน	เบลา	รูปแบบที่ผ่านการฝึกอบรมมาก่อน
Fisher-Callhome Spanish Fisher_test (es-> en)	51.03	การเชื่อมโยง
Fisher-Callhome Spanish Callhome_evltest (es-> en)	20.44	การเชื่อมโยง
การทดสอบ Libri-Trans (en-> fr)	16.70	การเชื่อมโยง
How2 dev5 (en-> pt)	45.68	การเชื่อมโยง
ต้อง ctst-common (en-> de)	22.91	การเชื่อมโยง
Mboshi-French Dev (fr-> mboshi)	6.18	N/A

ระบบเรียงซ้อนกัน

งาน	เบลา	รูปแบบที่ผ่านการฝึกอบรมมาก่อน
Fisher-Callhome Spanish Fisher_test (es-> en)	42.16	N/A
Fisher-Callhome Spanish Callhome_evltest (es-> en)	19.82	N/A
การทดสอบ Libri-Trans (en-> fr)	16.96	N/A
How2 dev5 (en-> pt)	44.90	N/A
ต้อง ctst-common (en-> de)	23.65	N/A

หากคุณต้องการตรวจสอบผลลัพธ์ของสูตรอื่น ๆ โปรดตรวจสอบ egs/<name_of_recipe>/st1/RESULTS.md

การสาธิตเซนต์

ขยาย

( ใหม่! ) เราทำการสาธิต E2E-ST + TTS แบบเรียลไทม์ใหม่ใน Google Colab โปรดเข้าถึงโน้ตบุ๊กจากปุ่มต่อไปนี้และเพลิดเพลินไปกับการแปลคำพูดเป็นคำพูดแบบเรียลไทม์!

คุณสามารถแปลคำพูดในไฟล์ WAV โดยใช้โมเดลที่ผ่านการฝึกอบรมมาก่อน ไปที่ไดเรกทอรีสูตรและเรียกใช้ utils/translate_wav.sh ดังนี้:

 # Go to recipe directory and source path of espnet tools
cd egs/fisher_callhome_spanish/st1 && . ./path.sh
# download example wav file
wget -O - https://github.com/espnet/espnet/files/4100928/test.wav.tar.gz | tar zxvf -
# let's translate speech!
translate_wav.sh --models fisher_callhome_spanish.transformer.v1.es-en test.wav

โดยที่ test.wav เป็นไฟล์ WAV ที่จะแปล อัตราการสุ่มตัวอย่างจะต้องสอดคล้องกับข้อมูลที่ใช้ในการฝึกอบรม

โมเดลที่ผ่านการฝึกอบรมมาล่วงหน้าในสคริปต์สาธิตมีการระบุไว้ด้านล่าง

แบบอย่าง	หมายเหตุ
fisher_callhome_spanish.transformer.v1	Transformer-St ได้รับการฝึกฝนเกี่ยวกับ Fisher-Callhome Spanish ES-> EN

ผลลัพธ์ MT

ขยาย

งาน	เบลา	รูปแบบที่ผ่านการฝึกอบรมมาก่อน
Fisher-Callhome Spanish Fisher_test (es-> en)	61.45	การเชื่อมโยง
Fisher-Callhome Spanish Callhome_evltest (es-> en)	29.86	การเชื่อมโยง
การทดสอบ Libri-Trans (en-> fr)	18.09	การเชื่อมโยง
How2 dev5 (en-> pt)	58.61	การเชื่อมโยง
ต้อง ctst-common (en-> de)	27.63	การเชื่อมโยง
iwslt'14 test2014 (en-> de)	24.70	การเชื่อมโยง
iwslt'14 test2014 (de-> en)	29.22	การเชื่อมโยง
iwslt'14 test2014 (de-> en)	32.2	การเชื่อมโยง
iwslt'16 test2014 (en-> de)	24.05	การเชื่อมโยง
iwslt'16 test2014 (de-> en)	29.13	การเชื่อมโยง

ผลลัพธ์ TTS

ESPNET2

คุณสามารถฟังตัวอย่างที่สร้างขึ้นใน URL ต่อไปนี้

ESPNET2 TTS สร้างตัวอย่าง

โปรดทราบว่าในรุ่นเราใช้ Griffin-Lim ( wav/ ) และ Wavegan แบบขนาน ( wav_pwg/ )

คุณสามารถดาวน์โหลดรุ่นที่ผ่านการฝึกอบรมล่วงหน้าผ่าน espnet_model_zoo

สวนสัตว์รุ่น ESPNET
รายการโมเดลที่ผ่านการฝึกอบรมมาก่อน

คุณสามารถดาวน์โหลดนักร้องที่ผ่านการฝึกอบรมล่วงหน้าผ่าน kan-bayashi/ParallelWaveGAN

kan-bayashi/parallelwavegan
รายชื่อนักร้องที่ผ่านการฝึกอบรมมาก่อน

ESPNET1

หมายเหตุ: เรากำลังเคลื่อนไหวในการพัฒนาที่ใช้ ESPNET2 สำหรับ TTS โปรดตรวจสอบผลลัพธ์ล่าสุดในผลลัพธ์ ESPNET2 ข้างต้น

คุณสามารถฟังตัวอย่างของเราในตัวอย่าง HP ESPNET-TTS-SAMPLE ที่นี่เราแสดงรายการที่น่าทึ่ง:

Tacotron2 ผู้พูดภาษาอังกฤษเดี่ยว
Tacotron2 ผู้พูดภาษาญี่ปุ่นเดี่ยว
TACOTRON2 SENED
TACOTRON2 ผู้พูดภาษาอังกฤษหลายคน
หม้อแปลงลำโพงภาษาอังกฤษเดี่ยว
Single Speaker Fastspeech
หม้อแปลงลำโพงหลายภาษาอังกฤษ
Spehech ผู้พูดภาษาอิตาลีเดี่ยว
หม้อแปลงลำโพงแมนดารินเดี่ยว
ลำโพงแมนดารินเดี่ยว
หม้อแปลงลำโพงญี่ปุ่นหลายชนิด
รุ่นลำโพงภาษาอังกฤษเดี่ยวพร้อม Wavegan คู่ขนาน
Speech Speech ผู้พูดภาษาอังกฤษเดี่ยว

คุณสามารถดาวน์โหลดรุ่นที่ผ่านการฝึกอบรมมาก่อนและตัวอย่างที่สร้างขึ้นได้ทั้งหมด:

รุ่น E2E-TTS ที่ผ่านการฝึกอบรมมาก่อนทั้งหมด
ตัวอย่างที่สร้างขึ้นทั้งหมด

โปรดทราบว่าในตัวอย่างที่สร้างขึ้นเราใช้นักร้องต่อไปนี้: Griffin-Lim ( GL ), Wavenet Vocoder ( Wavenet ), Wavegan คู่ขนาน ( Parallelwavegan ) และ Melgan ( Melgan ) นักร้องประสาทจะขึ้นอยู่กับที่เก็บต่อไปนี้

Kan-Bayashi / Parallelwavegan: Melgan Wavegan / Melgan / Multi-band Multi-band Melgan
r9y9/wavenet_vocoder: 16 บิตผสมของโลจิสติกส์ wavenet vocoder
kan-bayashi/pytorchwavenetvocoder: 8 บิต softmax wavenet vocoder ที่มีเสียงรบกวน

หากคุณต้องการสร้างนักร้องประสาทของคุณเองโปรดตรวจสอบที่เก็บข้างบน Kan-Bayashi/Parallelwavegan ให้คู่มือเกี่ยวกับวิธีการถอดรหัสคุณสมบัติของรุ่น ESPNET-TTS พร้อมกับนักร้องประสาท โปรดตรวจสอบ

ที่นี่เราแสดงรายการนักร้องประสาทที่ผ่านการฝึกอบรมมาก่อน โปรดดาวน์โหลดและเพลิดเพลินกับการพูดที่มีคุณภาพสูง!

ลิงค์โมเดล	หรั่ง	FS [Hz]	Mel Range [Hz]	fft / shift / win [pt]	ประเภทรุ่น
ljspeech.wavenet.softmax.ns.v1	en	22.05K	ไม่มี	1024/256 / NONE	softmax wavenet
ljspeech.wavenet.mol.v1	en	22.05K	ไม่มี	1024/256 / NONE	Mol Wavenet
ljspeech.parallellal_wavegan.v1	en	22.05K	ไม่มี	1024/256 / NONE	Wavegan คู่ขนาน
ljspeech.wavenet.mol.v2	en	22.05K	80-7600	1024/256 / NONE	Mol Wavenet
ljspeech.parallelt_wavegan.v2	en	22.05K	80-7600	1024/256 / NONE	Wavegan คู่ขนาน
ljspeech.melgan.v1	en	22.05K	80-7600	1024/256 / NONE	Melgan
ljspeech.melgan.v3	en	22.05K	80-7600	1024/256 / NONE	Melgan
Libritts.wavenet.mol.v1	en	24K	ไม่มี	1024/256 / NONE	Mol Wavenet
jsut.wavenet.mol.v1	JP	24K	80-7600	2048/300/200	Mol Wavenet
jsut.parallel_wavegan.v1	JP	24K	80-7600	2048/300/200	Wavegan คู่ขนาน
csmsc.wavenet.mol.v1	zh	24K	80-7600	2048/300/200	Mol Wavenet
csmsc.parallel_wavegan.v1	zh	24K	80-7600	2048/300/200	Wavegan คู่ขนาน

หากคุณต้องการใช้คำแนะนำที่ได้รับการฝึกอบรมล่วงหน้าข้างต้นโปรดจับคู่การตั้งค่าคุณสมบัติกับพวกเขาอย่างแน่นอน

การสาธิต TTS

ESPNET2

คุณสามารถลองสาธิตแบบเรียลไทม์ใน Google Colab โปรดเข้าถึงสมุดบันทึกจากปุ่มต่อไปนี้และเพลิดเพลินกับการสังเคราะห์แบบเรียลไทม์!

การสาธิต TTS แบบเรียลไทม์กับ ESPNET2

รุ่นอังกฤษญี่ปุ่นและแมนดารินมีอยู่ในตัวอย่าง

ESPNET1

หมายเหตุ: เรากำลังเคลื่อนไหวในการพัฒนาที่ใช้ ESPNET2 สำหรับ TTS โปรดตรวจสอบการสาธิตล่าสุดในการสาธิต ESPNET2 ข้างต้น

คุณสามารถลองสาธิตแบบเรียลไทม์ใน Google Colab โปรดเข้าถึงสมุดบันทึกจากปุ่มต่อไปนี้และเพลิดเพลินกับการสังเคราะห์แบบเรียลไทม์

การสาธิต TTS แบบเรียลไทม์กับ ESPNET1

นอกจากนี้เรายังมีเชลล์สคริปต์เพื่อทำการสังเคราะห์ ไปที่ไดเรกทอรีสูตรและเรียกใช้ utils/synth_wav.sh ดังนี้:

 # Go to recipe directory and source path of espnet tools
cd egs/ljspeech/tts1 && . ./path.sh
# We use an upper-case char sequence for the default model.
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example.txt
# let's synthesize speech!
synth_wav.sh example.txt

# Also, you can use multiple sentences
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example_multi.txt
echo " TEXT TO SPEECH IS A TECHNIQUE TO CONVERT TEXT INTO SPEECH. " >> example_multi.txt
synth_wav.sh example_multi.txt

คุณสามารถเปลี่ยนโมเดลที่ผ่านการฝึกอบรมมาก่อน:

synth_wav.sh --models ljspeech.fastspeech.v1 example.txt

การสังเคราะห์รูปคลื่นดำเนินการกับอัลกอริทึม Griffin-Lim และนักร้องประสาท (Wavenet และ Parallelwavegan) คุณสามารถเปลี่ยนโมเดล Vocoder ที่ผ่านการฝึกอบรมมาแล้วดังนี้:

synth_wav.sh --vocoder_models ljspeech.wavenet.mol.v1 example.txt

Wavenet Vocoder ให้คำพูดที่มีคุณภาพสูงมาก แต่ต้องใช้เวลาในการสร้าง

ดูรายละเอียดเพิ่มเติมหรือรุ่นที่มีอยู่ผ่าน --help

synth_wav.sh --help

ผลลัพธ์ VC

ขยาย

VC ที่ใช้ Transformer และ Tacotron2

คุณสามารถฟังตัวอย่างบางส่วนบนหน้าเว็บสาธิต

Cascade ASR+TTS เป็นหนึ่งในระบบพื้นฐานของ VCC2020

Voice Conversion Challenge 2020 (VCC2020) ใช้ ESPNET เพื่อสร้างระบบพื้นฐานแบบครบวงจร ใน VCC2020 วัตถุประสงค์คือ Intra/cross-lingual nonparallel VC คุณสามารถดาวน์โหลดตัวอย่างที่แปลงของระบบพื้นฐาน ASR+TTS ได้ที่นี่

ผลลัพธ์ SLU

ขยาย

เราแสดงรายการประสิทธิภาพในงาน SLU และชุดข้อมูลต่างๆโดยใช้ตัวชี้วัดที่รายงานในกระดาษชุดข้อมูลต้นฉบับ

งาน	ชุดข้อมูล	ตัวชี้วัด	ผลลัพธ์	รูปแบบที่ผ่านการฝึกอบรมมาก่อน
การจำแนกโดยเจตนา	slurp	ACC	86.3	การเชื่อมโยง
การจำแนกโดยเจตนา	FSC	ACC	99.6	การเชื่อมโยง
การจำแนกโดยเจตนา	ชุดลำโพงที่มองไม่เห็น FSC	ACC	98.6	การเชื่อมโยง
การจำแนกโดยเจตนา	ชุดคำพูดที่มองไม่เห็น FSC	ACC	86.4	การเชื่อมโยง
การจำแนกโดยเจตนา	ชุดลำโพง FSC Challenge Challenge	ACC	97.5	การเชื่อมโยง
การจำแนกโดยเจตนา	ชุดคำพูด FSC Challenge	ACC	78.5	การเชื่อมโยง
การจำแนกโดยเจตนา	ซุ่มยิง	F1	91.7	การเชื่อมโยง
การจำแนกโดยเจตนา	Grabo (NL)	ACC	97.2	การเชื่อมโยง
การจำแนกโดยเจตนา	แผนที่แมว SLU (ZN)	ACC	78.9	การเชื่อมโยง
การจำแนกโดยเจตนา	คำสั่งคำพูดของ Google	ACC	98.4	การเชื่อมโยง
ช่องเสียบ	slurp	SLU-F1	71.9	การเชื่อมโยง
การจำแนกประเภทบทสนทนา	กระดานสวิตช์	ACC	67.5	การเชื่อมโยง
การจำแนกประเภทบทสนทนา	Jdcinal (JP)	ACC	67.4	การเชื่อมโยง
การรับรู้อารมณ์	Iemocap	ACC	69.4	การเชื่อมโยง
การรับรู้อารมณ์	swbd_sentiment	มาโคร F1	61.4	การเชื่อมโยง
การรับรู้อารมณ์	slue_voxceleb	มาโคร F1	44.0	การเชื่อมโยง

หากคุณต้องการตรวจสอบผลลัพธ์ของสูตรอื่น ๆ โปรดตรวจสอบ egs2/<name_of_recipe>/asr1/RESULTS.md

การสาธิตการแบ่งส่วน CTC

ESPNET1

การแบ่งส่วน CTC กำหนดกลุ่มคำพูดภายในไฟล์เสียง การจัดแนวส่วนคำพูดนั้นเป็นฉลากของชุดข้อมูลการพูด

ในการสาธิตเราจัดแนวการเริ่มต้นและสิ้นสุดของคำพูดภายในไฟล์เสียง ctc_align_test.wav โดยใช้สคริปต์ตัวอย่าง utils/asr_align_wav.sh สำหรับการเตรียมการตั้งค่าไดเรกทอรีข้อมูล:

 cd egs/tedlium2/align1/
# data directory
align_dir=data/demo
mkdir -p ${align_dir}
# wav file
base=ctc_align_test
wav=../../../test_utils/ ${base} .wav
# recipe files
echo " batchsize: 0 " > ${align_dir} /align.yaml

cat << EOF > ${align_dir} /utt_text
${base} THE SALE OF THE HOTELS
${base} IS PART OF HOLIDAY'S STRATEGY
${base} TO SELL OFF ASSETS
${base} AND CONCENTRATE
${base} ON PROPERTY MANAGEMENT
EOF

ที่นี่ utt_text เป็นไฟล์ที่มีรายการคำพูด เลือกโมเดล ASR ที่ผ่านการฝึกอบรมมาก่อนซึ่งมีเลเยอร์ CTC เพื่อค้นหากลุ่มคำพูด:

 # pre-trained ASR model
model=wsj.transformer_small.v1
mkdir ./conf && cp ../../wsj/asr1/conf/no_preprocess.yaml ./conf

../../../utils/asr_align_wav.sh 
    --models ${model} 
    --align_dir ${align_dir} 
    --align_config ${align_dir} /align.yaml 
    ${wav} ${align_dir} /utt_text

เซ็กเมนต์ถูกเขียนไปยัง aligned_segments เป็นรายการชื่อไฟล์/คำพูดการเริ่มต้นและเวลาสิ้นสุดในไม่กี่วินาทีและคะแนนความมั่นใจ คะแนนความเชื่อมั่นคือความน่าจะเป็นในพื้นที่บันทึกที่ระบุว่าคำพูดนั้นสอดคล้องกันเพียงใด หากจำเป็นให้ลบคำพูดที่ไม่ดี:

min_confidence_score=-5
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' ${align_dir} /aligned_segments

สคริปต์ตัวอย่าง utils/ctc_align_wav.sh ใช้โมเดล ASR ที่ผ่านการฝึกอบรมมาล่วงหน้าแล้ว (ดูรายการด้านบนสำหรับรุ่นเพิ่มเติม) ขอแนะนำให้ใช้โมเดลที่มีตัวเข้ารหัสที่ใช้ RNN (เช่น BLSTMP) เพื่อจัดตำแหน่งไฟล์เสียงขนาดใหญ่ แทนที่จะใช้โมเดลหม้อแปลงที่มีการใช้หน่วยความจำสูงในข้อมูลเสียงที่ยาวขึ้น อัตราตัวอย่างของเสียงจะต้องสอดคล้องกับข้อมูลที่ใช้ในการฝึกอบรม ปรับด้วย sox ถ้าจำเป็น สูตรตัวอย่างเต็มรูปแบบอยู่ใน egs/tedlium2/align1/

ESPNET2

การแบ่งส่วน CTC กำหนดกลุ่มคำพูดภายในไฟล์เสียง การจัดแนวส่วนคำพูดนั้นเป็นฉลากของชุดข้อมูลการพูด

ในการสาธิตเราจัดแนวการเริ่มต้นและสิ้นสุดของคำพูดภายในไฟล์เสียง ctc_align_test.wav สามารถทำได้โดยตรงจากบรรทัดคำสั่ง Python หรือใช้สคริปต์ espnet2/bin/asr_align.py

จากอินเตอร์เฟสบรรทัดคำสั่ง Python:

 # load a model with character tokens
from espnet_model_zoo . downloader import ModelDownloader
d = ModelDownloader ( cachedir = "./modelcache" )
wsjmodel = d . download_and_unpack ( "kamo-naoyuki/wsj" )
# load the example file included in the ESPnet repository
import soundfile
speech , rate = soundfile . read ( "./test_utils/ctc_align_test.wav" )
# CTC segmentation
from espnet2 . bin . asr_align import CTCSegmentation
aligner = CTCSegmentation ( ** wsjmodel , fs = rate )
text = """
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE ON PROPERTY MANAGEMENT
"""
segments = aligner ( speech , text )
print ( segments )
# utt1 utt 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 utt 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 utt 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 utt 4.20 6.10 -0.4899 AND CONCENTRATE ON PROPERTY MANAGEMENT

การจัดแนวยังทำงานกับชิ้นส่วนของข้อความ สำหรับสิ่งนี้ตั้งค่าตัวเลือก gratis_blank ที่อนุญาตให้ข้ามส่วนเสียงที่ไม่เกี่ยวข้องโดยไม่มีการลงโทษ นอกจากนี้ยังเป็นไปได้ที่จะละเว้นชื่อคำพูดที่จุดเริ่มต้นของแต่ละบรรทัดโดยการตั้งค่า kaldi_style_text เป็นเท็จ

 aligner . set_config ( gratis_blank = True , kaldi_style_text = False )
text = [ "SALE OF THE HOTELS" , "PROPERTY MANAGEMENT" ]
segments = aligner ( speech , text )
print ( segments )
# utt_0000 utt 0.37 1.72 -2.0651 SALE OF THE HOTELS
# utt_0001 utt 4.70 6.10 -5.0566 PROPERTY MANAGEMENT

สคริปต์ espnet2/bin/asr_align.py ใช้อินเทอร์เฟซที่คล้ายกัน เพื่อจัดแนวคำพูด:

 # ASR model and config files from pre-trained model (e.g., from cachedir):
asr_config= < path-to-model > /config.yaml
asr_model= < path-to-model > /valid. * best.pth
# prepare the text file
wav= " test_utils/ctc_align_test.wav "
text= " test_utils/ctc_align_text.txt "
cat << EOF > ${text}
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE
utt5 ON PROPERTY MANAGEMENT
EOF
# obtain alignments:
python espnet2/bin/asr_align.py --asr_train_config ${asr_config} --asr_model_file ${asr_model} --audio ${wav} --text ${text}
# utt1 ctc_align_test 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 ctc_align_test 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 ctc_align_test 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 ctc_align_test 4.20 4.97 -0.6017 AND CONCENTRATE
# utt5 ctc_align_test 4.97 6.10 -0.3477 ON PROPERTY MANAGEMENT

เอาต์พุตของสคริปต์สามารถเปลี่ยนเส้นทางไปยังไฟล์ segments ได้โดยการเพิ่มอาร์กิวเมนต์ --output segments พุท แต่ละบรรทัดมีชื่อไฟล์/คำพูดการเริ่มต้นและเวลาสิ้นสุดในไม่กี่วินาทีและคะแนนความมั่นใจ; เลือกข้อความคำพูดด้วย คะแนนความเชื่อมั่นคือความน่าจะเป็นในพื้นที่บันทึกที่ระบุว่าคำพูดนั้นสอดคล้องกันเพียงใด หากจำเป็นให้ลบคำพูดที่ไม่ดี:

min_confidence_score=-7
# here, we assume that the output was written to the file `segments`
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' segments

ดูเอกสารโมดูลสำหรับข้อมูลเพิ่มเติม ขอแนะนำให้ใช้โมเดลที่มีตัวเข้ารหัสที่ใช้ RNN (เช่น BLSTMP) เพื่อจัดตำแหน่งไฟล์เสียงขนาดใหญ่ แทนที่จะใช้โมเดลหม้อแปลงที่มีการใช้หน่วยความจำสูงในข้อมูลเสียงที่ยาวขึ้น อัตราตัวอย่างของเสียงจะต้องสอดคล้องกับข้อมูลที่ใช้ในการฝึกอบรม ปรับด้วย sox ถ้าจำเป็น

นอกจากนี้เราสามารถใช้เครื่องมือนี้เพื่อให้ข้อมูลการแบ่งส่วนระดับโทเค็นหากเราเตรียมรายการโทเค็นแทนคำพูดในไฟล์ text ดูการสนทนาใน #4278 (ความคิดเห็น)

การอ้างอิง

 @inproceedings{watanabe2018espnet,
  author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson {Enrique Yalta Soplin} and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
  title={{ESPnet}: End-to-End Speech Processing Toolkit},
  year={2018},
  booktitle={Proceedings of Interspeech},
  pages={2207--2211},
  doi={10.21437/Interspeech.2018-1456},
  url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
  title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
  booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7654--7658},
  year={2020},
  organization={IEEE}
}
@inproceedings{inaguma-etal-2020-espnet,
    title = "{ESP}net-{ST}: All-in-One Speech Translation Toolkit",
    author = "Inaguma, Hirofumi  and
      Kiyono, Shun  and
      Duh, Kevin  and
      Karita, Shigeki  and
      Yalta, Nelson  and
      Hayashi, Tomoki  and
      Watanabe, Shinji",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-demos.34",
    pages = "302--311",
}
@article{hayashi2021espnet2,
  title={{ESP}net2-{TTS}: Extending the edge of {TTS} research},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Yoshimura, Takenori and Wu, Peter and Shi, Jiatong and Saeki, Takaaki and Ju, Yooncheol and Yasuda, Yusuke and Takamichi, Shinnosuke and Watanabe, Shinji},
  journal={arXiv preprint arXiv:2110.07840},
  year={2021}
}
@inproceedings{li2020espnet,
  title={{ESPnet-SE}: End-to-End Speech Enhancement and Separation Toolkit Designed for {ASR} Integration},
  author={Chenda Li and Jing Shi and Wangyou Zhang and Aswin Shanmugam Subramanian and Xuankai Chang and Naoyuki Kamo and Moto Hira and Tomoki Hayashi and Christoph Boeddeker and Zhuo Chen and Shinji Watanabe},
  booktitle={Proceedings of IEEE Spoken Language Technology Workshop (SLT)},
  pages={785--792},
  year={2021},
  organization={IEEE},
}
@inproceedings{arora2021espnet,
  title={{ESPnet-SLU}: Advancing Spoken Language Understanding through ESPnet},
  author={Arora, Siddhant and Dalmia, Siddharth and Denisov, Pavel and Chang, Xuankai and Ueda, Yushi and Peng, Yifan and Zhang, Yuekai and Kumar, Sujay and Ganesan, Karthik and Yan, Brian and others},
  booktitle={ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7167--7171},
  year={2022},
  organization={IEEE}
}
@inproceedings{shi2022muskits,
  author={Shi, Jiatong and Guo, Shuai and Qian, Tao and Huo, Nan and Hayashi, Tomoki and Wu, Yuning and Xu, Frank and Chang, Xuankai and Li, Huazhe and Wu, Peter and Watanabe, Shinji and Jin, Qin},
  title={{Muskits}: an End-to-End Music Processing Toolkit for Singing Voice Synthesis},
  year={2022},
  booktitle={Proceedings of Interspeech},
  pages={4277-4281},
  url={https://www.isca-speech.org/archive/pdfs/interspeech_2022/shi22d_interspeech.pdf}
}
@inproceedings{lu22c_interspeech,
  author={Yen-Ju Lu and Xuankai Chang and Chenda Li and Wangyou Zhang and Samuele Cornell and Zhaoheng Ni and Yoshiki Masuyama and Brian Yan and Robin Scheibler and Zhong-Qiu Wang and Yu Tsao and Yanmin Qian and Shinji Watanabe},
  title={{ESPnet-SE++: Speech Enhancement for Robust Speech Recognition, Translation, and Understanding}},
  year=2022,
  booktitle={Proc. Interspeech 2022},
  pages={5458--5462},
}
@inproceedings{gao2023euro,
  title={{EURO: ESP}net unsupervised {ASR} open-source toolkit},
  author={Gao, Dongji and Shi, Jiatong and Chuang, Shun-Po and Garcia, Leibny Paola and Lee, Hung-yi and Watanabe, Shinji and Khudanpur, Sanjeev},
  booktitle={ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={1--5},
  year={2023},
  organization={IEEE}
}
@inproceedings{peng2023reproducing,
  title={Reproducing {W}hisper-style training using an open-source toolkit and publicly available data},
  author={Peng, Yifan and Tian, Jinchuan and Yan, Brian and Berrebbi, Dan and Chang, Xuankai and Li, Xinjian and Shi, Jiatong and Arora, Siddhant and Chen, William and Sharma, Roshan and others},
  booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
  pages={1--8},
  year={2023},
  organization={IEEE}
}
@inproceedings{sharma2023espnet,
  title={ESPnet-{SUMM}: Introducing a novel large dataset, toolkit, and a cross-corpora evaluation of speech summarization systems},
  author={Sharma, Roshan and Chen, William and Kano, Takatomo and Sharma, Ruchira and Arora, Siddhant and Watanabe, Shinji and Ogawa, Atsunori and Delcroix, Marc and Singh, Rita and Raj, Bhiksha},
  booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
  pages={1--8},
  year={2023},
  organization={IEEE}
}
@article{jung2024espnet,
  title={{ESPnet-SPK}: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models},
  author={Jung, Jee-weon and Zhang, Wangyou and Shi, Jiatong and Aldeneh, Zakaria and Higuchi, Takuya and Theobald, Barry-John and Abdelaziz, Ahmed Hussen and Watanabe, Shinji},
  journal={Proc. Interspeech 2024},
  year={2024}
}
@inproceedings{yan-etal-2023-espnet,
    title = "{ESP}net-{ST}-v2: Multipurpose Spoken Language Translation Toolkit",
    author = "Yan, Brian  and
      Shi, Jiatong  and
      Tang, Yun  and
      Inaguma, Hirofumi  and
      Peng, Yifan  and
      Dalmia, Siddharth  and
      Pol{'a}k, Peter  and
      Fernandes, Patrick  and
      Berrebbi, Dan  and
      Hayashi, Tomoki  and
      Zhang, Xiaohui  and
      Ni, Zhaoheng  and
      Hira, Moto  and
      Maiti, Soumi  and
      Pino, Juan  and
      Watanabe, Shinji",
    booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)",
    year = "2023",
    publisher = "Association for Computational Linguistics",
    pages = "400--411",
}

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน version 202409
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-02-02
ขนาด 23.14MB
มาจาก Github

แอปที่เกี่ยวข้อง

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
SmartTube

ซอร์สโค้ดอื่น ๆ

24.71 Stable
Sunamu

ซอร์สโค้ดอื่น ๆ

Release 2.2.0
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
wp functions

หมวดหมู่อื่นๆ

1.0.0
termwind

หมวดหมู่อื่นๆ

v2.3.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด