该存储库是使用实时工作的声码器实现从说话者验证到多说话者文本到语音合成 (SV2TTS) 的迁移学习的实现。这是我的硕士论文。
SV2TTS是一个分为三个阶段的深度学习框架。在第一阶段,人们从几秒钟的音频中创建声音的数字表示。在第二和第三阶段,该表示被用作参考来生成给定任意文本的语音。
视频演示(点击图片):
网址 | 指定 | 标题 | 实现源码 |
---|---|---|---|
1806.04558 | SV2TTS | 从说话人验证到多说话人文本语音合成的迁移学习 | 这个仓库 |
1802.08435 | WaveRNN(声码器) | 高效的神经音频合成 | 和弦/WaveRNN |
1703.10135 | Tacotron(合成器) | Tacotron:走向端到端语音合成 | 和弦/WaveRNN |
1710.10467 | GE2E(编码器) | 用于说话人验证的广义端到端损耗 | 这个仓库 |
与深度学习中的其他所有内容一样,这个存储库很快就过时了。许多 SaaS 应用程序(通常是付费的)将为您提供比此存储库更好的音频质量。如果您想要一个具有高语音质量的开源解决方案:
venv
设置虚拟环境,但这是可选的。pip install -r requirements.txt
安装其余要求现在会自动下载预训练模型。如果这不适合您,您可以在此处手动下载它们。
在下载任何数据集之前,您可以通过以下方式开始测试您的配置:
python demo_cli.py
如果所有测试都通过,那么您就可以开始了。
对于单独使用工具箱,我只建议下载LibriSpeech/train-clean-100
。将内容提取为
,其中
是您选择的目录。工具箱支持其他数据集,请参阅此处。您可以不下载任何数据集,但是您将需要自己的数据作为音频文件,或者您必须使用工具箱录制它。
然后您可以尝试工具箱:
python demo_toolbox.py -d
或者python demo_toolbox.py
取决于您是否下载了任何数据集。如果您正在运行 X 服务器或者出现错误Aborted (core dumped)
,请参阅此问题。