Downcodes小編報:Oute AI 最近發布了其全新的文字轉語音合成方法-OuteTTS-0.1-350M。這款基於LLaMa架構的TTS模型,憑藉其簡潔的架構和高效的WavTokenizer,在無需外部適配器的情況下,實現了高品質的語音合成。它不僅擁有零樣本語音克隆功能,還與llama.cpp相容,使其成為即時應用的理想選擇。 OuteTTS-0.1-350M 的發布,無疑為文字轉語音技術的發展帶來了新的突破。
近日,Oute AI 發布了一種新穎的文字轉語音合成方法,稱為OuteTTS-0.1-350M。這種方法利用純語言建模,無需外部適配器或複雜架構,提供了簡化的TTS 方法。 OuteTTS-0.1-350M 基於LLaMa 架構,使用WavTokenizer 直接產生音訊標記,讓流程更有效率。
該模型具有零樣本語音克隆功能,僅需幾秒鐘的參考音訊即可複製新的聲音。 OuteTTS-0.1-350M 專為裝置效能而設計,並與llama.cpp 相容,使其成為即時應用的理想選擇。儘管該模型的參數規模相對較小(3.5億個),但其性能可與更大、更複雜的TTS 系統相媲美。
OuteTTS-0.1-350M 的可訪問性和效率使其適用於廣泛的應用,包括個人化助理、有聲讀物和內容在地化。 Oute AI 在CC-BY 許可下發布,鼓勵進一步實驗和整合到不同的專案中,使先進的TTS 技術民主化。
OuteTTS-0.1-350M 的發布標誌著文字轉語音技術向前邁出了關鍵一步,它利用簡化的架構以最少的計算要求提供高品質的語音合成。它整合了LLaMa 架構,使用了WavTokenizer,並且能夠執行零樣本語音克隆而無需複雜的適配器,這使它有別於傳統的TTS 模型。
網址:https://www.outeai.com/blog/OuteTTS-0.1-350M
總而言之,OuteTTS-0.1-350M 以其高效、簡潔和易訪問性,為文字轉語音領域帶來了新的可能性,值得期待其在未來應用中的表現。 Downcodes小編將持續關注此模式的後續發展。