语音大模型SpeechGPT-Gen:8B参数，零样本生成语音

作者：Eve Cole 更新时间：2025-02-01 00:16:01

近日，复旦大学研究人员取得重大突破，成功推出新型语音大型语言模型SpeechGPT-Gen。该模型参数规模达80亿，在文本到语音、语音转换和语音对话等领域表现卓越，其高效性源于创新的信息链生成方法。此项研究为语音人工智能技术发展树立了新的里程碑，也为未来更多智能应用提供了强有力的技术支撑。

站长之家报道称，复旦大学研究人员推出了SpeechGPT-Gen，这是一种具有语义和感知信息建模高效性的8B参数语音大型语言模型。该模型在零样本文本到语音、语音转换以及语音对话等多个应用中展现出卓越的性能和可扩展性。采用信息链生成（CoIG）方法，解决了传统语音生成方法中的低效问题。另外，该模型在流匹配中使用语义信息作为先验，提升了模型的效率和输出质量。

SpeechGPT-Gen模型的出现，标志着语音人工智能技术取得了显着进展。其高效性和可扩展性为未来更多应用场景提供了可能性，值得期待其在各个领域的进一步应用和发展，相信未来会有更多令人惊喜的研究成果涌现。