data_driven_ai_voice_cloning
1.0.0
该存储库是我的数据科学与工程硕士论文主要部分的实现。它分为两部分:
- 型号:ECAPA-TDNN、wavlm 系列
- 数据:VoxCeleb1,私人数据集
- 模型:FastSpeech2(微软实现)
- 数据:LibriTTS
然后将这两部分集成以实现多扬声器文本转语音模型,该模型能够从大约 5 秒的音频开始克隆看不见的声音,即 ZeroShotFastSpeech2 模型。