data_driven_ai_voice_cloning
1.0.0
Dieses Repository ist eine Implementierung des Hauptteils meiner Masterarbeit in Data Science & Engineering. Es ist in zwei Teile gegliedert:
- Modelle: ECAPA-TDNN, Wavlm-Serie
- Daten: VoxCeleb1, privater Datensatz
- Modell: FastSpeech2 (Microsoft-Implementierung)
- Daten: LibriTTS
Diese beiden Teile werden dann integriert, um ein Multi-Speaker-Text-to-Speech-Modell zu erhalten, das in der Lage ist, unsichtbare Stimmen ab etwa 5 Sekunden Audio zu klonen, das ZeroShotFastSpeech2-Modell.