พื้นที่เก็บข้อมูลนี้เป็นการนำ Transfer Learning จาก Speaker Verification ไปเป็นการสังเคราะห์ข้อความเป็นคำพูดแบบหลายลำโพง (SV2TTS) ด้วย Vocoder ที่ทำงานแบบเรียลไทม์ นี่เป็นวิทยานิพนธ์ปริญญาโทของฉัน
SV2TTS เป็นเฟรมเวิร์กการเรียนรู้เชิงลึกในสามขั้นตอน ในขั้นตอนแรก เราจะสร้างการแสดงเสียงแบบดิจิทัลจากเสียงไม่กี่วินาที ในขั้นตอนที่ 2 และ 3 การแสดงนี้ใช้เป็นข้อมูลอ้างอิงเพื่อสร้างคำพูดตามข้อความที่กำหนด
วิดีโอสาธิต (คลิกที่ภาพ):
URL | การกำหนด | ชื่อ | แหล่งที่มาของการนำไปปฏิบัติ |
---|---|---|---|
1806.04558 | SV2TTS | ถ่ายโอนการเรียนรู้จากการตรวจสอบผู้พูดไปสู่การสังเคราะห์ข้อความเป็นคำพูดแบบหลายลำโพง | รีโปนี้ |
1802.08435 | WaveRNN (โวโคเดอร์) | การสังเคราะห์เสียงทางประสาทที่มีประสิทธิภาพ | ฟัตคอร์ด/เวฟRNN |
1703.10135 | ทาโคตรอน (ซินธิไซเซอร์) | Tacotron: สู่การสังเคราะห์คำพูดจากต้นทางถึงปลายทาง | ฟัตคอร์ด/เวฟRNN |
1710.10467 | GE2E (ตัวเข้ารหัส) | การสูญเสียแบบ end-to-end โดยทั่วไปสำหรับการตรวจสอบผู้พูด | รีโปนี้ |
เช่นเดียวกับทุกสิ่งทุกอย่างใน Deep Learning repo นี้เก่าไปอย่างรวดเร็ว แอป SaaS จำนวนมาก (มักจะจ่ายเงิน) จะให้คุณภาพเสียงที่ดีกว่าพื้นที่เก็บข้อมูลนี้ หากคุณต้องการโซลูชันโอเพ่นซอร์สที่มีคุณภาพเสียงสูง:
venv
แต่นี่เป็นทางเลือกpip install -r requirements.txt
ขณะนี้โมเดลที่ฝึกไว้ล่วงหน้าจะถูกดาวน์โหลดโดยอัตโนมัติ หากไม่ได้ผลสำหรับคุณ คุณสามารถดาวน์โหลดด้วยตนเองได้ที่นี่
ก่อนที่คุณจะดาวน์โหลดชุดข้อมูลใดๆ คุณสามารถเริ่มต้นด้วยการทดสอบการกำหนดค่าของคุณด้วย:
python demo_cli.py
หากการทดสอบทั้งหมดผ่าน คุณก็ไปได้ดี
สำหรับการเล่นกับกล่องเครื่องมือเพียงอย่างเดียว ฉันแนะนำให้ดาวน์โหลด LibriSpeech/train-clean-100
เท่านั้น แยกเนื้อหาเป็น
โดยที่
เป็นไดเร็กทอรีที่คุณเลือก ชุดข้อมูลอื่นๆ ได้รับการสนับสนุนในกล่องเครื่องมือ ดูที่นี่ คุณไม่สามารถดาวน์โหลดชุดข้อมูลใดๆ ได้ฟรี แต่คุณจะต้องใช้ข้อมูลของคุณเองเป็นไฟล์เสียง ไม่เช่นนั้นคุณจะต้องบันทึกมันด้วยกล่องเครื่องมือ
จากนั้นคุณสามารถลองใช้กล่องเครื่องมือ:
python demo_toolbox.py -d
หรือ
python demo_toolbox.py
ขึ้นอยู่กับว่าคุณดาวน์โหลดชุดข้อมูลใดๆ หรือไม่ หากคุณใช้งาน X-server หรือหากคุณมีข้อผิดพลาด Aborted (core dumped)
โปรดดูปัญหานี้