Meta最新發表的Seamless Communication語音翻譯模型系列,堪稱語音翻譯領域的一大突破。系列包含四個模型,支援近百種語言的即時語音互譯,延遲僅2秒左右,並能高度還原源語音的語調、語速等細節,翻譯效果逼真自然。 Meta此舉不僅展現了其在人工智慧領域的領先地位,也為全球溝通帶來了前所未有的便利。
Meta近日發布了語音翻譯新模型Seamless Communication系列,包括4個模型,支援近100種語言之間的即時語音互譯,延遲控制在2秒鐘左右。模型可復刻來源語音的停頓、語氣、語速等複雜特徵,讓翻譯更加逼真。採用非自回歸架構以支援長序列翻譯。此外Meta也開源了模型及58.5萬小時規模最大的語音語料庫,並增加音頻水印和翻譯毒性緩解等功能以防模型濫用。
Meta開源模型和海量語料庫的舉動,將極大推動語音翻譯技術的發展,促進全球資訊交流,同時,其採取的防濫用措施也體現了技術應用的責任感。 期待未來Seamless Communication系列能帶來更多驚喜。