data_driven_ai_voice_cloning
1.0.0
このリポジトリは、データサイエンスとエンジニアリングにおける私の修士論文の主要部分を実装したものです。これは 2 つの部分に分かれています。
- モデル: ECAPA-TDNN、wavlm-シリーズ
- データ: VoxCeleb1、プライベート データセット
- モデル: FastSpeech2 (Microsoft 実装)
- データ:LibriTTS
この 2 つの部分を統合して、約 5 秒の音声から始まる目に見えない音声のクローンを作成できるマルチ スピーカー Text to Speech モデル (ZeroShotFastSpeech2 モデル) を実現します。