data_driven_ai_voice_cloning
1.0.0
Este repositorio es una implementación de la parte principal de mi tesis de maestría en ciencia e ingeniería de datos. Se divide en dos partes:
- modelos: ECAPA-TDNN, serie wavlm
- datos: VoxCeleb1, conjunto de datos privado
- modelo: FastSpeech2 (implementación de Microsoft)
- datos: LibriTTS
Luego, estas dos partes se integran para lograr un modelo de texto a voz de múltiples hablantes que es capaz de clonar voces invisibles a partir de aproximadamente 5 segundos de audio, el modelo ZeroShotFastSpeech2.