data_driven_ai_voice_cloning
1.0.0
該存儲庫是我的數據科學與工程碩士論文主要部分的實現。它分為兩部分:
- 型號:ECAPA-TDNN、wavlm 系列
- 資料:VoxCeleb1,私人資料集
- 模型:FastSpeech2(微軟實作)
- 數據:LibriTTS
然後將這兩部分整合以實現多揚聲器文字轉語音模型,該模型能夠從大約 5 秒的音訊開始克隆看不見的聲音,即 ZeroShotFastSpeech2 模型。