美國初創公司Useful Sensors發布了一款名為Moonshine的開源語音識別模型,旨在提高音頻數據處理效率。與OpenAI的Whisper相比,Moonshine在計算資源消耗上更經濟,處理速度提升了五倍,尤其適用於資源受限的硬件和實時應用。其靈活的架構和根據音頻長度動態調整處理時間的特性,使其在處理短音頻片段時表現突出,並有效減少了處理開銷。 Moonshine提供Tiny和Base兩個版本,參數量分別為2710萬和6150萬,均優於同類模型在資源利用率上的表現。
與Whisper 將音頻分為固定的30秒片段處理不同,Moonshine 根據實際音頻長度調整處理時間。這使得它在處理較短音頻片段時表現出色,減少了由於零填充而產生的處理開銷。
Moonshine 有兩個版本:小型的Tiny 版本參數量為2710萬,大型的Base 版本則為6150萬。而相比之下,OpenAI 的同類模型參數量更大,Whisper tiny.en 為3780萬,base.en 為7260萬。
測試結果顯示,Moonshine 的Tiny 模型在準確性上與Whisper 相當,同時消耗的計算資源更少。在各種音頻水平和背景噪聲的情況下,Moonshine 的兩個版本在詞錯誤率(WER)上都低於Whisper,顯示出較強的性能。
研究團隊指出,Moonshine 在處理極短音頻片(少於一秒)時仍有提升空間。這些短音頻在訓練數據中佔比較小,增加這類音頻片段的訓練可能會提升模型的表現。
此外,Moonshine 的離線能力開闢了新的應用場景,之前由於硬件限製而無法實現的應用現在變得可行。與需要較高功耗的Whisper 不同,Moonshine 適合在智能手機和小型設備(如樹莓派)上運行。 Useful Sensors 正在利用Moonshine 開發其英西翻譯器Torre。
Moonshine 的代碼已經在GitHub 上發布,用戶需要注意,像Whisper 這樣的AI 轉錄系統可能會出現錯誤。一些研究表明,Whisper 在生成內容時有1.4% 的概率會出現虛假信息,特別是對於有語言障礙的人群,錯誤率更高。
項目入口:https://github.com/usefulsensors/moonshine
劃重點:
Moonshine 是一款開源語音識別模型,其處理速度比OpenAI 的Whisper 快五倍。
該模型能夠根據音頻長度調整處理時間,特別適合短音頻片段。
Moonshine 支持離線運行,適合資源有限的硬件設備使用。
總而言之,Moonshine 憑藉其高效的處理速度、靈活的架構和對資源的低需求,為語音識別技術帶來了新的可能性,尤其是在資源受限的設備和實時應用場景下。其開源特性也方便了開發者進行改進和應用,值得關注和期待。