data_driven_ai_voice_cloningダウンロード - data_driven_ai_voice_cloningソースコードのダウンロード

日本語

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

ダウンロード

データ駆動型 AI 音声クローン作成

このリポジトリは、データサイエンスとエンジニアリングにおける私の修士論文の主要部分を実装したものです。これは 2 つの部分に分かれています。

モデル: ECAPA-TDNN、wavlm-シリーズ
データ: VoxCeleb1、プライベートデータセット

モデル: FastSpeech2 (Microsoft 実装)
データ：LibriTTS

この 2 つの部分を統合して、約 5 秒の音声から始まる目に見えない音声のクローンを作成できるマルチスピーカー Text to Speech モデル (ZeroShotFastSpeech2 モデル) を実現します。

拡大する

追加情報