騰訊出品！ AI音訊模型EzAudio AI，讓文字秒變逼真聲音

作者：Eve Cole 更新時間：2024-12-02 14:48:01

Downcodes小編報：約翰霍普金斯大學與騰訊AI實驗室聯合研發了一款名為EzAudio的突破性文字轉音訊生成模型，其高效、高品質的音訊轉換能力標誌著人工智慧和音訊技術領域的一大進步。 EzAudio採用創新的音訊波形潛在空間技術，並結合AdaLN-SOLA等先進技術，在客觀和主觀評估中均超越現有開源模型。該模型的開源程式碼、資料集和模型檢查點已公開，鼓勵進一步研究和應用。

EzAudio 的工作原理是利用音訊波形的潛在空間，而不是傳統的聲譜圖，這項創新讓它能夠在高時間解析度下工作，且無需額外的神經聲碼器。

EzAudio 的架構稱為EzAudio-DiT（擴散變換器），採用了多項技術創新來提高效能和效率。其中包括一種新的自適應層歸一化技術AdaLN-SOLA、長跳連接，以及先進的位置編碼技術如RoPE(旋轉位置嵌入)。

研究人員表示，EzAudio 產生的音訊樣本非常逼真，客觀和主觀評估均優於現有的開源模型。

目前，AI 音訊生成市場正快速成長。像ElevenLabs 這樣的知名公司最近推出了一款iOS 應用，用於文字轉語音的轉換，顯示出消費者對AI 音訊工具的濃厚興趣。同時，微軟和Google等科技巨頭也不斷增加對AI 語音模擬技術的投資。

根據Gartner 的預測，到2027年，40% 的生成式AI 解決方案將會是多模態的，結合文字、影像和音訊的能力，這意味著EzAudio 這樣的高品質音訊產生模型可能會不斷演變的AI 領域中發揮重要作用。

EzAudio 團隊已經公開了他們的程式碼、資料集和模型檢查點，強調了透明性，並鼓勵該領域的進一步研究。

研究人員認為EzAudio 的應用可能超越聲音效果生成，涉及語音和音樂製作等領域。隨著技術的不斷進步，它有望在娛樂、媒體、輔助服務和虛擬助理等行業中廣泛應用。

demo:https://huggingface.co/spaces/OpenSound/EzAudio

專案入口:https://github.com/haidog-yaqub/EzAudio?tab=readme-ov-file

劃重點:

EzAudio 是由約翰霍普金斯大學與騰訊合作推出的新型文字轉音頻生成模型，標誌著音訊技術的重大進步。

? 此模型透過創新的架構和技術，產生的音訊樣本在品質上優於現有開源模型，具備廣泛的應用潛力。

隨著科技的發展，倫理和責任使用的問題逐漸突顯，EzAudio 的公開研究程式碼也為未來的風險與效益提供了廣泛的檢驗機會。

EzAudio的開源和高效能使其在AI音訊生成領域具有顯著優勢，未來應用前景廣闊，但同時也需關注其倫理和社會影響。 Downcodes小編將持續關注此技術的進展與應用。