Meta发布语音翻译新模型,支持模仿语气与语速

作者：Eve Cole 更新时间：2025-01-17 08:48:02

Meta最新发布的Seamless Communication语音翻译模型系列，堪称语音翻译领域的一大突破。该系列包含四个模型，支持近百种语言的实时语音互译，延迟仅为2秒左右，并能高度还原源语音的语气、语速等细节，翻译效果逼真自然。Meta此举不仅展现了其在人工智能领域的领先地位，也为全球沟通带来了前所未有的便利。

Meta近日发布了语音翻译新模型Seamless Communication系列,包括4个模型,支持近100种语言之间的实时语音互译,延迟控制在2秒左右。模型可复刻源语音的停顿、语气、语速等复杂特征,让翻译更加逼真。采用非自回归架构以支持长序列翻译。此外Meta还开源了模型及58.5万小时规模最大的语音语料库,并增加音频水印和翻译毒性缓解等功能以防模型滥用。

Meta开源模型和海量语料库的举动，将极大推动语音翻译技术的发展，促进全球信息交流，同时，其采取的防滥用措施也体现了技术应用的责任感。期待未来Seamless Communication系列能够带来更多惊喜。