data_driven_ai_voice_cloning
1.0.0
Este repositório é uma implementação da parte principal da minha tese de mestrado em Ciência e Engenharia de Dados. Está dividido em duas partes:
- modelos: ECAPA-TDNN, série wavlm
- dados: VoxCeleb1, conjunto de dados privado
- modelo: FastSpeech2 (implementação da Microsoft)
- dados: LibriTTS
Essas duas partes são então integradas para obter um modelo Multi Speaker Text to Speech que é capaz de clonar vozes invisíveis a partir de cerca de 5 segundos de áudio, o modelo ZeroShotFastSpeech2.