Fish Audio发布Fish Agent V0.1 3B 实时语音克隆

作者：Eve Cole 更新时间：2024-12-24 19:48:01

Downcodes小编获悉，Fish Audio公司最新发布的语音处理模型Fish Agent V0.13B，凭借其高效精准的语音生成和处理能力，在AI语音领域掀起波澜。该模型尤其擅长模拟和克隆各种声音，显着提升了AI语音助手的逼真度和响应速度，为用户带来更自然流畅的语音交互体验。其创新架构实现了“即时”语音克隆和文本到语音转换，转换时间仅需200毫秒，这使其在语音助手、自动客服等实时语音生成应用中展现出巨大潜力。

得益于这种创新架构，Fish Agent V0.13B能够快速、自然地生成高质量语音，实现“即时”语音克隆和文本到语音转换，文本到音频转换时间（TTFA）仅需200毫秒。这一特性使其非常适合需要实时语音生成的应用场景，例如语音助手、自动客服以及其他需要快速语音反馈的场景。

Fish Agent V0.13B模型支持多种语言，包括英语、中文、德语、日语、法语、西班牙语、韩语和阿拉伯语，并使用了约70万小时的多语言音频数据进行训练。这意味着它能够处理多种语言和语境，并生成更自然、更贴近真人发音的语音。

除了语音到语音生成和文本到语音转换功能外，Fish Agent V0.13B还具备以下关键特性:

零样本语音克隆:无需训练即可实现语音克隆。

精简的3B参数:使用30亿参数，便于开发。

支持文本和音频输入:灵活的多输入方式。

目前，Fish Audio已将Fish Agent V0.13B模型开源，并提供了初步演示版本供用户体验。该模型的发布将进一步推动AI语音技术的发展，为语音助手、虚拟人等应用带来更多可能性。

GitHub: https://github.com/fishaudio/fish-speech

Fish Agent Demo: https://huggingface.co/spaces/fishaudio/fish-agent

模型下载: https://huggingface.co/fishaudio/fish-agent-v0.1-3b

技术报告: https://arxiv.org/abs/2411.01156

Fish Agent V0.13B的开源发布，标志着AI语音技术迈向新的里程碑，为开发者和研究者提供了强大的工具，也预示着未来AI语音应用将更加丰富和便捷。期待Fish Audio在AI语音领域带来更多创新成果！