NVIDIA 推出了一款名為Fugatto 的革命性音訊生成與處理AI 模型,它擁有25億參數,旨在為音樂和聲音創作領域帶來前所未有的靈活性和創造力。 Fugatto 結合了文字提示和先進的音訊合成技術,支援文字和音訊輸入,突破了傳統音訊生成模型的限制,允許使用者即時進行創作和修改,產生各種新穎的聲音效果。其創新的「可組合音訊表示變換」(ComposableART)技術賦予使用者前所未有的控制力,實現對聲音的精確掌控。
在音樂和聲音創作領域,科技與創意的結合總是面臨許多挑戰。現有的AI 模型往往只擅長特定的任務,缺乏廣泛的適應性,這使得AI 在音樂製作中的輔助作用受限。為了讓AI 更能服務音樂與音訊生產,亟需一款能夠靈活應對各種創作需求的通用模型。為此,NVIDIA 推出了Fugatto,這是一款擁有25億參數的音訊產生與處理模型。
Fugatto 的設計旨在透過結合文字提示與先進的音訊合成能力,提供高靈活度的聲音輸入和創作實驗空間。例如,它可以將鋼琴旋律轉變為人聲演唱,或讓小號發出意想不到的聲音。
Fugatto 不僅支援文字輸入,還支援選購的音訊輸入,打破了傳統音訊生成模型的限制,使得藝術家和開發者能夠即時進行創作與修改,流暢地產生新類型的聲音。
在技術方面,Fugatto 採用了一種創新的數據生成方法,超越了傳統的監督式學習。它的訓練不僅依賴常規資料集,還結合了專門生成的資料集,從而創建了豐富多樣的音訊與轉換任務。此外,Fugatto 借助大語言模型(LLM)來增強指令產生能力,更能理解音訊與文字提示之間的關係。
一個重要的創新是「可組合音訊表示變換」(ComposableART),這是一種在推理時使用的技術,能夠靈活地結合、插值或否定不同的音訊產生指令。 ComposableART 讓使用者在音訊合成過程中擁有更高的控制力,可以精確地導航Fugatto 的聲音調色板,創造出獨特的聲音現象。
Fugatto 的架構基於增強型的Transformer 模型,採用了自適應層歸一化等特定修改,能夠在多種輸入條件下保持一致性,支援複雜的組合指令。初步測試表明,Fugatto 在常見基準測試中表現不俗,特別是在聲音合成和變換方面,與其他專業模型相比,顯示出更強的能力。
Fugatto 的推出標誌著音訊生成AI 的一次重要進步,突破了傳統的局限,為創意音訊製作提供了強大且靈活的工具。其在音樂、遊戲、娛樂和教育等多個領域的潛在應用,意味著AI 技術將繼續在幫助人類創造力方面發揮重要作用。
官方部落格:https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/
論文:https://d1qx31qr3h6wln.cloudfront.net/publications/FUGATTO.pdf
劃重點:
Fugatto 是NVIDIA 推出的音訊AI 模型,擁有25億參數,支援文字與音訊輸入,協助音樂與聲音創作。
採用創新的資料產生方法和可組合音訊表示變換技術,使得使用者能夠靈活產生和修改聲音。
初步測試顯示,Fugatto 在音訊合成與變換方面的表現優於多種專業模型,展現了其強大的創意潛力。
總而言之,Fugatto 以其強大的功能和靈活的特性,為音樂創作和聲音設計領域帶來了新的可能性,預示著AI在創意產業的應用將更加廣泛和深入。 期待Fugatto在未來能為我們帶來更多驚喜。