超快音效生成模型TangoFlux：只需3秒鐘就能產生30秒長音頻

作者：Eve Cole 更新時間：2025-01-19 12:48:02

近年來，文字到音訊的生成技術快速發展，為人工智慧領域注入了新的活力。本文將重點介紹一款名為TANGOFLUX的全新模型，它在速度和效率方面展現出令人矚目的優勢，並為文字音訊生成技術的研究和應用帶來了新的突破。 TANGOFLUX模型不僅產生速度快，而且在音訊品質和音效多樣性方面也表現出色，其開源特性更有利於學術界和產業界的共同發展。

在人工智慧領域，文字音訊生成技術正逐漸成為研究的熱點。最近，研究者們推出了一款名為TANGOFLUX 的全新模型，該模型在性能和效率上都表現出色。

TANGOFLUX 是一種高效的文本到音頻生成模型，擁有515百萬個參數，能夠在短短3.7秒內生成最長可達30秒的44.1kHz 音頻，這一速度讓其在單個A40GPU 上的表現非常出色。

TANGOFLUX主要是特色是可以產生各種音效，例如鳥叫、口哨、爆炸等聲音，另外也支持生成音樂不過效果就不那麼理想了。

文字音訊生成模型的一個主要挑戰在於如何創建偏好配對。與大型語言模型（LLMs）不同，文字音訊生成模型缺乏可驗證的獎勵機製或黃金標準答案。為了解決這個問題，研究團隊提出了一個名為CLAP-Ranked Preference Optimization(CRPO)的新框架。該框架透過迭代生成和優化偏好數據，以提昇文字音訊生成模型的對齊性能。研究表明，使用CRPO 產生的音頻偏好數據在性能上優於現有的替代方案。

透過這個框架，TANGOFLUX 在多項客觀和主觀基準測試中都取得了領先的表現。此外，研究團隊還決定將所有程式碼和模型開源，以支援更多人對文字音訊產生的研究。對於需要音訊產生的應用場景，TANGOFLUX 無疑是一項具有重要意義的技術進展。

在實際效果方面，TANGOFLUX 在音訊生成品質上優於其他模型，展現出更清晰的事件聲音、更好的事件順序再現以及更高的音訊品質。透過多個範例的比較，使用者可以直觀地感受到TANGOFLUX 在音訊生成中的優勢。

提示詞：人類悠揚的口哨聲與自然鳥鳴和諧共存，生成的效果如下：

隨著這項新技術的問世，文字到音訊生成的應用前景愈加廣闊，未來可能會在影視製作、遊戲音效等領域發揮重要作用。

專案入口:https://tangoflux.github.io/

劃重點:

TANGOFLUX 是一款高效能的文字音訊產生模型，能夠在3.7秒內產生30秒的高品質音訊。

提出了CLAP-Ranked Preference Optimization（CRPO）框架，以優化模型效能和音訊偏好資料。

所有程式碼和模型已開源，旨在推動文字音訊生成的研究與應用。

總而言之，TANGOFLUX 模型的出現標誌著文字到音訊生成技術取得了顯著進展，其高效性、高品質和開源特性將推動該領域進一步發展，並為各行各業帶來更多創新應用。期待未來TANGOFLUX能有更廣泛的應用與持續的最佳化升級。