NVIDIA發布“聲音魔法棒”Fugatto：用文字就能玩轉音樂！ - AI文章

作者：Eve Cole 更新時間：2025-01-29 16:32:01

NVIDIA發布了令人驚嘆的AI音頻模型Fugatto，它如同魔法棒般，賦予用戶通過文字操控聲音的能力。 Fugatto不只是簡單的音頻生成器，它能夠混合音樂、語音和各種聲音，並理解複雜的文本指令，實現前所未有的音頻創作和操控。這款模型的應用前景廣泛，從音樂製作到廣告配音，從語言學習到遊戲開發，Fugatto都能提供強大的支持，極大地提升效率和創造力。其強大的多語言和多口音處理能力，以及對聲音細節的精準控制，更是展現了其突破性的技術實力。

還記得科幻電影中，主角揮舞著魔法棒，就能隨意操控聲音的場景嗎?現在，這種神奇的能力不再是幻想!NVIDIA 最新發布的AI模型Fugatto，就像一支“聲音魔法棒” ，讓用戶僅憑文字就能操控音樂、聲音和語音，創造出各種奇妙的聽覺效果。

Fugatto，全稱為“Foundational Generative Audio Transformer Opus1”，是一款基於生成式AI技術的音頻處理模型。與其他只能創作音樂或修改語音的AI模型不同，Fugatto 擁有更強大的能力，可以生成或轉換任何音樂、語音和聲音的混合體，並且能夠理解並執行用戶通過文本和音頻文件輸入的指令。

Fugatto 的強大功能讓音樂製作人、廣告公司、語言學習工具開發者和遊戲開發者等各行各業的用戶都為之驚嘆。音樂製作人可以用它快速嘗試不同的音樂風格、人聲和樂器，甚至可以為現有的歌曲添加效果或提升音質。廣告公司則可以用它為廣告配音添加不同的口音和情緒，輕鬆地將廣告推廣到不同的地區和目標人群。語言學習工具開發者可以使用Fugatto 將課程內容轉換成任何用戶想要的聲音，例如家人或朋友的聲音，讓學習更加個性化。遊戲開發者則可以利用Fugatto 根據遊戲進程實時修改遊戲中的聲音素材，或者根據文本指令和音頻輸入創建全新的遊戲音效。

Fugatto 的神奇之處在於它能夠像人類一樣理解和生成聲音。它不僅可以執行用戶給出的具體指令，還能創造出前所未有的新聲音。例如，它可以讓小號發出狗叫聲，讓薩克斯風發出貓叫聲，只要用戶能夠描述出來，Fugatto 就能創造出來。

音频声波

Fugatto 的另一項突破性能力是它可以將訓練過程中單獨學習到的指令組合起來，生成更複雜的效果。例如，用戶可以要求它生成一段帶有悲傷情緒的法語口音語音。更令人驚嘆的是，Fugatto 還允許用戶對指令進行細微的調整，例如控制口音的濃重程度或悲傷情緒的強烈程度，讓用戶能夠像藝術家一樣進行創作。

Fugatto 還能生成隨時間變化的聲音，例如一場暴風雨從遠處逼近，雷聲逐漸增強，然後慢慢消失在遠方。用戶可以精確地控制聲音的變化過程，創造出各種生動的音效。

Fugatto 是一個由全球各地研究人員共同開發的成果，團隊成員來自印度、巴西、中國、約旦和韓國等國家。他們多元化的背景讓Fugatto 擁有更強大的多口音和多語言處理能力。

Fugatto 的誕生是NVIDIA 在語音建模、音頻編碼和音頻理解等領域多年研究積累的結晶。它使用了25億個參數，並在配備32個NVIDIA H100Tensor Core GPU 的NVIDIA DGX 系統集群上進行了訓練。

Fugatto 的出現，標誌著音頻處理技術進入了一個全新的時代。它將為音樂、電影、遊戲、教育等各個領域帶來無限的可能性，讓我們共同期待它創造出更多令人驚嘆的聽覺盛宴!

官方博客：https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/

Fugatto 的出現不僅是科技的進步，更是創意的無限延伸。它為藝術家和開發者提供了前所未有的創作工具，也預示著未來音頻技術的無限可能。讓我們拭目以待，看看Fugatto將如何改變我們的聽覺世界。