阿里通义实验室语音生成大模型CosyVoice升级2.0版本

作者：Eve Cole 更新时间：2024-12-19 08:32:01

阿里巴巴通义实验室语音团队重磅推出CosyVoice 2.0，该开源语音生成大模型在语音合成技术上取得了显着突破。相较于前一代版本，CosyVoice 2.0在准确性、稳定性和自然度方面都有大幅提升，实现了双向流式语音合成，并显着降低了合成延迟。此次升级不仅体现在技术层面，更在用户体验上带来了质的飞跃，为用户提供了更丰富、更便捷的语音合成服务。

阿里巴巴通义实验室语音团队宣布，其开源的语音生成大模型CosyVoice已升级至2.0版本，这一升级标志着语音生成技术在准确性、稳定性和自然体验方面的显着进步。 CosyVoice2.0通过采用离线和流式一体化建模的语音生成大模型技术，实现了双向流式语音合成，首包合成延迟可达到150ms，显着提升了语音合成的响应速度。

微信截图_20241216105354.png

在发音准确性方面，CosyVoice2.0相比于前一版本错误率下降了30%至50%，在Seed-TTS测试集的hard测试集上取得了当前最低的字错误率，尤其在合成绕口令、多音字、生僻字方面表现出色。此外，2.0版本在零样本语音生成和跨语言语音合成上保持了音色一致性，特别是跨语言语音合成能力相较于1.0版本有了明显提升。

CosyVoice2.0在合成音频的韵律、音质、情感匹配方面也有所增强，MOS评测分从5.4提升至5.53，接近某商业化语音合成大模型的评分。同时，2.0版本支持更多细粒度的情感控制和方言口音控制，为用户提供了更丰富的语言选择，包括粤语、四川话、郑州话、天津话和长沙话等主要方言，以及角色扮演功能，如模仿机器人、小猪佩奇的风格讲话等。

CosyVoice2.0的升级，不仅提升了语音合成的技术和体验，也进一步推动了开源社区的发展，鼓励更多的开发者参与到语音处理技术的创新和应用中来。

GitHub仓库:CosyVoice（https://github.com/FunAudioLLM/CosyVoice）查阅最新更新的CosyVoice2

在线体验DEMO:https://www.modelscope.cn/studios/iic/CosyVoice2-0.5B

开源代码:https://github.com/FunAudioLLM/CosyVoice

开源模型:https://www.modelscope.cn/models/iic/CosyVoice2-0.5B

CosyVoice 2.0的开源，将进一步促进语音合成技术的普及和发展，为开发者和研究人员提供强大的工具和资源，期待更多创新应用的涌现。欢迎访问提供的链接体验和下载。