以色列人工智慧新創公司aiOla發布了新的開源語音識別模型Whisper-Medusa,該模型在OpenAI的Whisper基礎上進行了改進,速度提升了50%,並且在Hugging Face上以麻省理工學院許可證開源,允許研究和商業用途。 Downcodes小編將為您詳細解讀這款令人矚目的新款。
以色列人工智慧新創公司aiOla 最近搞了個大動作,宣布推出一款新的開源語音辨識模型Whisper-Medusa。
這模型可不簡單,它比OpenAI 大名鼎鼎的Whisper 速度快了足足50%!它是在Whisper 的基礎上搭建的,但採用了一種新奇的「多頭注意力」架構,一次能預測的代幣數量遠超OpenAI 的產品。而且,程式碼和權重已經在Hugging Face 上用麻省理工學院的許可發布啦,允許研究和商業使用。
aiOla 的研究副總裁Gill Hetz 說了,開源能鼓勵社群創新合作,讓速度更快、更完善。這項工作能為複合人工智慧系統開路,讓系統幾乎即時理解並回答使用者問題。
在這個基礎模型能出各種內容的時代,高階語音辨識還是很重要的。像Whisper 能處理不同語言和口音的複雜語音,每月下載超500萬次,給好多應用程式提供支持,成了語音辨識的黃金標準。
那aiOla 的Whisper-Medusa 有啥特別的?
該公司改了Whisper 的架構,增加了多頭注意力機制,每次能預測10個token,速度提高50%,還不影響準確度。訓練這個模型用了弱監督的機器學習方法,以後還會有更厲害的版本。更重要的是,由於Whisper-Medusa 的骨幹網路建立在Whisper 之上,因此速度的提高不會以犧牲性能為代價。
在訓練Whisper-Medusa 時,aiOla 採用了一種稱為弱監督的機器學習方法。作為其中的一部分,它凍結了Whisper 的主要組件,並使用模型生成的音頻轉錄作為標籤來訓練額外的token預測模組。
當被問及是否有任何公司可以提前獲得Whisper-Medusa時,Hetz 說他們在真實企業數據用例上測試過,能在實際場景準確運行,以後能讓語音應用反應更快。最終,他相信識別和轉錄速度的提高將使語音應用程式的周轉時間更快,並為提供即時回應鋪平道路。
劃重點:
?速度快50%:aiOla 的Whisper-Medusa 比OpenAI 的Whisper 語音辨識速度大幅提升。
?不損準確性:速度提升的同時保持了與原模型相同的準確性。
應用前景廣:可望在語音應用中加快回應,提升效率,降低成本。
總而言之,aiOla的Whisper-Medusa模型憑藉其速度優勢和開源屬性,有望在語音辨識領域掀起新的浪潮,為各種語音應用帶來顯著的效能提升。 Downcodes小編將持續關注該模式的後續發展和社群貢獻。