該儲存庫是使用即時工作的聲碼器實現從說話者驗證到多說話者文字到語音合成 (SV2TTS) 的遷移學習的實現。這是我的碩士論文。
SV2TTS是一個分為三個階段的深度學習架構。在第一階段,人們從幾秒鐘的音訊中創建聲音的數位表示。在第二和第三階段,該表示被用作參考來產生給定任意文字的語音。
影片示範(點擊圖片):
網址 | 指定 | 標題 | 實作原始碼 |
---|---|---|---|
1806.04558 | SV2TTS | 從說話者驗證到多說話人文本語音合成的遷移學習 | 這個倉庫 |
1802.08435 | WaveRNN(聲碼器) | 高效的神經音訊合成 | 和弦/WaveRNN |
1703.10135 | Tacotron(合成器) | Tacotron:走向端對端語音合成 | 和弦/WaveRNN |
1710.10467 | GE2E(編碼器) | 用於說話者驗證的廣義端對端損耗 | 這個倉庫 |
與深度學習中的其他所有內容一樣,這個儲存庫很快就過時了。許多 SaaS 應用程式(通常是付費的)將為您提供比此儲存庫更好的音訊品質。如果您想要一個具有高語音品質的開源解決方案:
venv
設定虛擬環境,但這是可選的。pip install -r requirements.txt
安裝其餘要求現在會自動下載預訓練模型。如果這不適合您,您可以在此處手動下載它們。
在下載任何資料集之前,您可以透過以下方式開始測試您的配置:
python demo_cli.py
如果所有測試都通過,那麼您就可以開始了。
對於單獨使用工具箱,我只建議下載LibriSpeech/train-clean-100
。將內容提取為
,其中
是您選擇的目錄。工具箱支援其他資料集,請參閱此處。您可以不下載任何資料集,但是您將需要自己的資料作為音訊文件,或者您必須使用工具箱錄製它。
然後您可以嘗試工具箱:
python demo_toolbox.py -d
或者python demo_toolbox.py
取決於您是否下載了任何資料集。如果您正在執行 X 伺服器或出現錯誤Aborted (core dumped)
,請參閱此問題。