data_driven_ai_voice_cloning
1.0.0
พื้นที่เก็บข้อมูลนี้เป็นการนำส่วนหลักของวิทยานิพนธ์ปริญญาโทของฉันในสาขาวิทยาศาสตร์ข้อมูลและวิศวกรรมศาสตร์ไปใช้ แบ่งออกเป็นสองส่วน:
- รุ่น: ECAPA-TDNN, wavlm-series
- ข้อมูล: VoxCeleb1 ชุดข้อมูลส่วนตัว
- รุ่น: FastSpeech2 (การใช้งาน Microsoft)
- ข้อมูล: LibriTTS
จากนั้นทั้งสองส่วนนี้จะถูกรวมเข้าด้วยกันเพื่อให้ได้โมเดลการแปลงข้อความเป็นคำพูดจากลำโพงหลายตัว ซึ่งสามารถโคลนเสียงที่มองไม่เห็นโดยเริ่มจากเสียงประมาณ 5 วินาที รุ่น ZeroShotFastSpeech2