data_driven_ai_voice_cloning
1.0.0
يعد هذا المستودع بمثابة تنفيذ للجزء الرئيسي من رسالة الماجستير الخاصة بي في علوم وهندسة البيانات. وهي مقسمة إلى قسمين:
- النماذج: ECAPA-TDNN، سلسلة wavlm
- البيانات: VoxCeleb1، مجموعة بيانات خاصة
- النموذج: FastSpeech2 (تنفيذ مايكروسوفت)
- البيانات: LibriTTS
يتم بعد ذلك دمج هذين الجزأين لتحقيق نموذج تحويل النص إلى كلام متعدد السماعات القادر على استنساخ الأصوات غير المرئية بدءًا من حوالي 5 ثوانٍ من الصوت، وهو نموذج ZeroShotFastSpeech2.