AudioGPT
1.0.0
我们在此存储库中以开源方式提供我们的实现和预训练模型。
请参考run.md
这里我们列出了AudioGPT此时的能力。更多受支持的模型和任务即将推出。有关提示示例,请参阅资产。
目前并非每个模型都有存储库。
任务 | 支持的基础模型 | 地位 |
---|---|---|
文字转语音 | FastSpeech、SyntaSpeech、VITS | 是(WIP) |
风格转移 | 通用演讲 | 是的 |
语音识别 | 窃窃私语,顺应者 | 是的 |
语音增强 | ConvTasNet | 是(WIP) |
语音分离 | TF-GridNet | 是(WIP) |
语音翻译 | 多解码器 | 在制品 |
单耳至双耳 | 神经扭曲 | 是的 |
任务 | 支持的基础模型 | 地位 |
---|---|---|
文字唱歌 | DiffSinger、VISinger | 是(WIP) |
任务 | 支持的基础模型 | 地位 |
---|---|---|
文本转音频 | 制作音频 | 是的 |
音频修复 | 制作音频 | 是的 |
图像转音频 | 制作音频 | 是的 |
声音检测 | 音频变压器 | 是的 |
目标声音检测 | TSD网络 | 是的 |
声音提取 | 拉斯斯网 | 是的 |
任务 | 支持的基础模型 | 地位 |
---|---|---|
说话头合成 | 基因脸 | 是(WIP) |
我们赞赏以下项目的开源:
ESPNet NATSpeech 视觉聊天GPT 抱脸 LangChain 稳定扩散