近日,一款名為Kokoro 的新型語音合成模型在Hugging Face 平台上發布,引發廣泛關注。該模型僅用8200萬參數,以及不到100小時的音頻數據,就達到了與參數量遠超其本身的模型相媲美的效果,在TTS領域排行榜上名列前茅。其高效的訓練過程和便利的使用方式,使其成為語音合成領域的一大突破。本文將詳細介紹Kokoro 模型的表現、訓練過程、使用方式、以及存在的限制。
在人工智慧的快速發展中,語音合成技術正日益受到關注。近日,名為Kokoro 的最新語音合成模型在Hugging Face 平台上正式發布,該模型具有8,200萬參數,標誌著語音合成領域的一個重要里程碑。
Kokoro v0.19在發布之前的幾周里,在TTS(文字轉語音)領域的排行榜上位列第一,其表現甚至超過了其他參數更多的模型。此模型在單聲道設定下,僅用不到100小時的音訊數據,便實現了與467M 參數的XTTS v2和1.2B 參數的MetaVoice 等模型相媲美的效果。這項成就表明,傳統語音合成模型的表現與參數、計算量和資料量之間的關係,可能比以往預期的更加顯著。
在使用上,用戶只需在Google Colab 中運行幾行程式碼,即可載入模型和語音包,產生高品質的音訊。 Kokoro 目前支援美國英語和英國英語,並提供了多個語音包供用戶選擇。
Kokoro 的訓練過程使用了Vast.ai 的A10080GB vRAM 實例,租用成本相對較低,確保了高效的訓練過程。整個模型的訓練僅使用了不到20個訓練週期和不到100小時的音訊資料。 Kokoro 模型在訓練中使用了公有領域的音訊資料以及其他開放授權的音頻,確保了資料的合規性。
儘管Kokoro 在語音合成方面表現出色,但由於其訓練資料和架構的限制,目前尚無法支援聲音克隆,並且主要的訓練資料集中在長篇朗讀和敘述,而非對話。
模型:https://huggingface.co/hexgrad/Kokoro-82M
體驗:https://huggingface.co/spaces/hexgrad/Kokoro-TTS
劃重點:
Kokoro-82M 是一款新發布的語音合成模型,具有8,200萬參數,支援多種語音包。
該模型在TTS 領域表現卓越,曾在排行榜上排名第一,僅用不到100小時的音訊資料進行訓練。
Kokoro 模型的訓練採用了開放授權的數據,確保合規性,但目前仍存在一些功能限制。
總而言之,Kokoro 模型在語音合成領域展現了令人矚目的潛力,其高效的訓練和優異的性能值得關注。雖然目前仍有一些局限性,但相信隨著技術的不斷發展,Kokoro 未來將會有更廣泛的應用情境。