NVIDIA發布「聲音魔法棒」Fugatto：用文字就能玩音樂！

作者：Eve Cole 更新時間：2025-01-09 09:24:01

NVIDIA最新發表的AI模式Fugatto，如同擁有魔法般的力量，徹底革新了音訊處理技術。它不僅能產生音樂、語音和聲音的混合體，更能理解並執行使用者透過文字和音訊檔案輸入的指令，讓創造各種奇妙的聽覺效果成為現實。 Downcodes小編將帶你深入了解這款顛覆性的AI模型，看看它如何讓科幻電影中的場景照進現實。

Fugatto，全稱為“Foundational Generative Audio Transformer Opus1”，是一款基於生成式AI技術的音訊處理模式。與其他只能創作音樂或修改語音的AI模型不同，Fugatto 擁有更強大的能力，可以產生或轉換任何音樂、語音和聲音的混合體，並且能夠理解並執行使用者透過文字和音訊檔案輸入的指令。

Fugatto 的強大功能讓音樂製作人、廣告公司、語言學習工具開發者和遊戲開發者等各行各業的用戶都為之驚嘆。音樂製作人可以用它快速嘗試不同的音樂風格、人聲和樂器，甚至可以為現有的歌曲添加效果或提升音質。廣告公司則可以用它為廣告配音添加不同的口音和情緒，輕鬆地將廣告推廣到不同的地區和目標人群。語言學習工具開發者可以使用Fugatto 將課程內容轉換成任何使用者想要的聲音，例如家人或朋友的聲音，讓學習更加個人化。遊戲開發者可利用Fugatto 根據遊戲進程即時修改遊戲中的聲音素材，或根據文字指令和音訊輸入創建全新的遊戲音效。

Fugatto 的神奇之處在於它能夠像人類一樣理解和產生聲音。它不僅可以執行使用者給予的具體指令，還能創造出前所未有的新聲音。例如，它可以讓小號發出狗叫聲，讓薩克斯風發出貓叫聲，只要使用者能描述出來，Fugatto 就能創造出來。

圖源備註：圖片由AI生成，圖片授權服務商Midjourney

Fugatto 的另一個突破性能力是它可以將訓練過程中單獨學習到的指令組合起來，產生更複雜的效果。例如，使用者可以要求它產生一段帶有悲傷情緒的法語口音語音。更令人驚嘆的是，Fugatto 還允許使用者對指令進行細微的調整，例如控製口音的濃重程度或悲傷情緒的強烈程度，讓使用者能夠像藝術家一樣進行創作。

Fugatto 還能產生隨時間變化的聲音，例如一場暴風雨從遠處逼近，雷聲逐漸增強，然後慢慢消失在遠方。使用者可以精確地控制聲音的變化過程，創造出各種生動的音效。

Fugatto 是一個由全球各地研究人員共同開發的成果，團隊成員來自印度、巴西、中國、約旦和韓國等國家。他們多元化的背景讓Fugatto 擁有更強大的多口音和多語言處理能力。

Fugatto 的誕生是NVIDIA 在語音建模、音訊編碼和音訊理解等領域研究累積多年的結晶。它使用了25億個參數，並在配備32個NVIDIA H100Tensor Core GPU 的NVIDIA DGX 系統叢集上進行了訓練。

Fugatto 的出現，標誌著音訊處理技術進入了一個全新的時代。它將為音樂、電影、遊戲、教育等各個領域帶來無限的可能性，讓我們共同期待它創造出更多令人驚嘆的聽覺盛宴!

官方部落格：https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/

Fugatto 的出現，預示著人工智慧在音訊領域的巨大潛力，其強大的功能和便利的操作方式，無疑將為各行各業帶來前所未有的革新。讓我們拭目以待，看看Fugatto未來將如何繼續塑造我們的聽覺世界！