Fish Audio公司發布了其全新語音處理模型Fish Agent V0.13B,這是一個令人印象深刻的語音到語音模型,能夠高效、精確地生成和處理語音,並擅長模擬和克隆不同的聲音。該模型基於Qwen-2.5-3B-Instruct進行預訓練,並使用了包含2000億語音和文本令牌的海量數據集。其創新之處在於採用“無語義令牌”架構,直接在聲音層面處理語音,從而提升了速度和效率,實現“即時”語音克隆和文本到語音轉換,文本到音頻轉換時間僅需200毫秒。該模型支持多種語言,並已開源,為AI語音技術發展帶來了新的可能性。
近日,Fish Audio公司發布了全新的語音處理模型Fish Agent V0.13B,這款語音到語音模型能夠高效、精確地生成和處理語音,尤其擅長模擬或克隆不同的聲音。這意味著,我們距離擁有一個聲音自然、反應迅速的AI語音助手又近了一步。
Fish Agent V0.13B模型基於Qwen-2.5-3B-Instruct進行預訓練,並使用了包含2000億語音和文本令牌的海量數據集。與傳統模型需要先將語音轉換成複雜語義編碼不同,Fish Agent V0.13B採用了一種名為“無語義令牌”的架構,直接在聲音層面上處理和生成語音。這種直接處理方式不僅簡化了模型結構,還提升了模型的反應速度和效率。
得益於這種創新架構,Fish Agent V0.13B能夠快速、自然地生成高質量語音,實現“即時”語音克隆和文本到語音轉換,文本到音頻轉換時間(TTFA)僅需200毫秒。這一特性使其非常適合需要實時語音生成的應用場景,例如語音助手、自動客服以及其他需要快速語音反饋的場景。
Fish Agent V0.13B模型支持多種語言,包括英語、中文、德語、日語、法語、西班牙語、韓語和阿拉伯語,並使用了約70萬小時的多語言音頻數據進行訓練。這意味著它能夠處理多種語言和語境,並生成更自然、更貼近真人發音的語音。
除了語音到語音生成和文本到語音轉換功能外,Fish Agent V0.13B還具備以下關鍵特性:
零樣本語音克隆:無需訓練即可實現語音克隆。
精簡的3B參數:使用30億參數,便於開發。
支持文本和音頻輸入:靈活的多輸入方式。
目前,Fish Audio已將Fish Agent V0.13B模型開源,並提供了初步演示版本供用戶體驗。該模型的發布將進一步推動AI語音技術的發展,為語音助手、虛擬人等應用帶來更多可能性。
GitHub: https://github.com/fishaudio/fish-speech
Fish Agent Demo: https://huggingface.co/spaces/fishaudio/fish-agent
模型下載: https://huggingface.co/fishaudio/fish-agent-v0.1-3b
技術報告: https://arxiv.org/abs/2411.01156
Fish Agent V0.13B模型的開源發布,將為AI語音領域的研究和應用帶來新的突破,值得期待其在未來語音技術發展中的作用。 希望更多開發者能夠參與其中,共同推動AI語音技術的進步。