Downcodes小編報:約翰霍普金斯大學與騰訊AI實驗室聯合研發了一款名為EzAudio的突破性文字轉音訊生成模型,其高效、高品質的音訊轉換能力標誌著人工智慧和音訊技術領域的一大進步。 EzAudio採用創新的音訊波形潛在空間技術,並結合AdaLN-SOLA等先進技術,在客觀和主觀評估中均超越現有開源模型。該模型的開源程式碼、資料集和模型檢查點已公開,鼓勵進一步研究和應用。
EzAudio 的工作原理是利用音訊波形的潛在空間,而不是傳統的聲譜圖,這項創新讓它能夠在高時間解析度下工作,且無需額外的神經聲碼器。
EzAudio 的架構稱為EzAudio-DiT(擴散變換器),採用了多項技術創新來提高效能和效率。其中包括一種新的自適應層歸一化技術AdaLN-SOLA、長跳連接,以及先進的位置編碼技術如RoPE(旋轉位置嵌入)。
研究人員表示,EzAudio 產生的音訊樣本非常逼真,客觀和主觀評估均優於現有的開源模型。
目前,AI 音訊生成市場正快速成長。像ElevenLabs 這樣的知名公司最近推出了一款iOS 應用,用於文字轉語音的轉換,顯示出消費者對AI 音訊工具的濃厚興趣。同時,微軟和Google等科技巨頭也不斷增加對AI 語音模擬技術的投資。
根據Gartner 的預測,到2027年,40% 的生成式AI 解決方案將會是多模態的,結合文字、影像和音訊的能力,這意味著EzAudio 這樣的高品質音訊產生模型可能會不斷演變的AI 領域中發揮重要作用。
EzAudio 團隊已經公開了他們的程式碼、資料集和模型檢查點,強調了透明性,並鼓勵該領域的進一步研究。
研究人員認為EzAudio 的應用可能超越聲音效果生成,涉及語音和音樂製作等領域。隨著技術的不斷進步,它有望在娛樂、媒體、輔助服務和虛擬助理等行業中廣泛應用。
demo:https://huggingface.co/spaces/OpenSound/EzAudio
專案入口:https://github.com/haidog-yaqub/EzAudio?tab=readme-ov-file
劃重點:
EzAudio 是由約翰霍普金斯大學與騰訊合作推出的新型文字轉音頻生成模型,標誌著音訊技術的重大進步。
? 此模型透過創新的架構和技術,產生的音訊樣本在品質上優於現有開源模型,具備廣泛的應用潛力。
隨著科技的發展,倫理和責任使用的問題逐漸突顯,EzAudio 的公開研究程式碼也為未來的風險與效益提供了廣泛的檢驗機會。
EzAudio的開源和高效能使其在AI音訊生成領域具有顯著優勢,未來應用前景廣闊,但同時也需關注其倫理和社會影響。 Downcodes小編將持續關注此技術的進展與應用。