Meta最新发布的Seamless Communication语音翻译模型系列,堪称语音翻译领域的一大突破。该系列包含四个模型,支持近百种语言的实时语音互译,延迟仅为2秒左右,并能高度还原源语音的语气、语速等细节,翻译效果逼真自然。Meta此举不仅展现了其在人工智能领域的领先地位,也为全球沟通带来了前所未有的便利。
Meta近日发布了语音翻译新模型Seamless Communication系列,包括4个模型,支持近100种语言之间的实时语音互译,延迟控制在2秒左右。模型可复刻源语音的停顿、语气、语速等复杂特征,让翻译更加逼真。采用非自回归架构以支持长序列翻译。此外Meta还开源了模型及58.5万小时规模最大的语音语料库,并增加音频水印和翻译毒性缓解等功能以防模型滥用。
Meta开源模型和海量语料库的举动,将极大推动语音翻译技术的发展,促进全球信息交流,同时,其采取的防滥用措施也体现了技术应用的责任感。 期待未来Seamless Communication系列能够带来更多惊喜。