Meta發布語音翻譯新模型,支援模仿語速與語速

作者：Eve Cole 更新時間：2025-01-17 08:48:02

Meta最新發表的Seamless Communication語音翻譯模型系列，堪稱語音翻譯領域的一大突破。系列包含四個模型，支援近百種語言的即時語音互譯，延遲僅2秒左右，並能高度還原源語音的語調、語速等細節，翻譯效果逼真自然。 Meta此舉不僅展現了其在人工智慧領域的領先地位，也為全球溝通帶來了前所未有的便利。

Meta近日發布了語音翻譯新模型Seamless Communication系列,包括4個模型,支援近100種語言之間的即時語音互譯,延遲控制在2秒鐘左右。模型可復刻來源語音的停頓、語氣、語速等複雜特徵,讓翻譯更加逼真。採用非自回歸架構以支援長序列翻譯。此外Meta也開源了模型及58.5萬小時規模最大的語音語料庫,並增加音頻水印和翻譯毒性緩解等功能以防模型濫用。

Meta開源模型和海量語料庫的舉動，將極大推動語音翻譯技術的發展，促進全球資訊交流，同時，其採取的防濫用措施也體現了技術應用的責任感。期待未來Seamless Communication系列能帶來更多驚喜。