data_driven_ai_voice_cloning
1.0.0
Ce référentiel est une implémentation de la partie principale de mon mémoire de master en Data science & Engineering. Il est divisé en deux parties :
- modèles : ECAPA-TDNN, série wavlm
- données : VoxCeleb1, ensemble de données privé
- modèle : FastSpeech2 (implémentation Microsoft)
- données : LibriTTS
Ces deux parties sont ensuite intégrées pour obtenir un modèle Text to Speech multi-haut-parleurs capable de cloner des voix invisibles à partir d'environ 5 secondes d'audio, le modèle ZeroShotFastSpeech2.