data_driven_ai_voice_cloning
1.0.0
Repositori ini merupakan implementasi dari bagian utama tesis master saya di bidang Ilmu & Teknik Data. Ini dibagi menjadi dua bagian:
- model: ECAPA-TDNN, seri wavlm
- data: VoxCeleb1, kumpulan data pribadi
- model: FastSpeech2 (implementasi Microsoft)
- data: LibraTTS
Kedua bagian ini kemudian diintegrasikan untuk mencapai model Multi Speaker Text to Speech yang mampu mengkloning suara tak terlihat mulai dari audio sekitar 5 detik, model ZeroShotFastSpeech2.