英偉達出品！ AI音訊模型Fugatto：輸入文字、音訊可產生音樂、音效- AI文章

作者：Eve Cole 更新時間：2025-01-25 11:00:03

NVIDIA 推出了一款名為Fugatto 的革命性音訊生成與處理AI 模型，它擁有25億參數，旨在為音樂和聲音創作領域帶來前所未有的靈活性和創造力。 Fugatto 結合了文字提示和先進的音訊合成技術，支援文字和音訊輸入，突破了傳統音訊生成模型的限制，允許使用者即時進行創作和修改，產生各種新穎的聲音效果。其創新的「可組合音訊表示變換」（ComposableART）技術賦予使用者前所未有的控制力，實現對聲音的精確掌控。

在音樂和聲音創作領域，科技與創意的結合總是面臨許多挑戰。現有的AI 模型往往只擅長特定的任務，缺乏廣泛的適應性，這使得AI 在音樂製作中的輔助作用受限。為了讓AI 更能服務音樂與音訊生產，亟需一款能夠靈活應對各種創作需求的通用模型。為此，NVIDIA 推出了Fugatto，這是一款擁有25億參數的音訊產生與處理模型。

Fugatto 的設計旨在透過結合文字提示與先進的音訊合成能力，提供高靈活度的聲音輸入和創作實驗空間。例如，它可以將鋼琴旋律轉變為人聲演唱，或讓小號發出意想不到的聲音。

Fugatto 不僅支援文字輸入，還支援選購的音訊輸入，打破了傳統音訊生成模型的限制，使得藝術家和開發者能夠即時進行創作與修改，流暢地產生新類型的聲音。

在技術方面，Fugatto 採用了一種創新的數據生成方法，超越了傳統的監督式學習。它的訓練不僅依賴常規資料集，還結合了專門生成的資料集，從而創建了豐富多樣的音訊與轉換任務。此外，Fugatto 借助大語言模型（LLM）來增強指令產生能力，更能理解音訊與文字提示之間的關係。

一個重要的創新是「可組合音訊表示變換」（ComposableART），這是一種在推理時使用的技術，能夠靈活地結合、插值或否定不同的音訊產生指令。 ComposableART 讓使用者在音訊合成過程中擁有更高的控制力，可以精確地導航Fugatto 的聲音調色板，創造出獨特的聲音現象。

Fugatto 的架構基於增強型的Transformer 模型，採用了自適應層歸一化等特定修改，能夠在多種輸入條件下保持一致性，支援複雜的組合指令。初步測試表明，Fugatto 在常見基準測試中表現不俗，特別是在聲音合成和變換方面，與其他專業模型相比，顯示出更強的能力。

Fugatto 的推出標誌著音訊生成AI 的一次重要進步，突破了傳統的局限，為創意音訊製作提供了強大且靈活的工具。其在音樂、遊戲、娛樂和教育等多個領域的潛在應用，意味著AI 技術將繼續在幫助人類創造力方面發揮重要作用。

官方部落格:https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/

論文:https://d1qx31qr3h6wln.cloudfront.net/publications/FUGATTO.pdf

劃重點:

Fugatto 是NVIDIA 推出的音訊AI 模型，擁有25億參數，支援文字與音訊輸入，協助音樂與聲音創作。

採用創新的資料產生方法和可組合音訊表示變換技術，使得使用者能夠靈活產生和修改聲音。

初步測試顯示，Fugatto 在音訊合成與變換方面的表現優於多種專業模型，展現了其強大的創意潛力。

總而言之，Fugatto 以其強大的功能和靈活的特性，為音樂創作和聲音設計領域帶來了新的可能性，預示著AI在創意產業的應用將更加廣泛和深入。期待Fugatto在未來能為我們帶來更多驚喜。