Downcodes小编报道:美国初创公司Useful Sensors发布了一款名为Moonshine的开源语音识别模型,该模型在计算资源效率和处理速度方面都展现出显着优势,相比OpenAI的Whisper模型,其速度提升了五倍。 Moonshine的设计目标是在资源受限的硬件上实现实时应用,其灵活的架构使其能够适应各种应用场景。这对于需要在低功耗设备上运行语音识别的应用来说是一个重大突破。
与Whisper 将音频分为固定的30秒片段处理不同,Moonshine 根据实际音频长度调整处理时间。这使得它在处理较短音频片段时表现出色,减少了由于零填充而产生的处理开销。
Moonshine 有两个版本:小型的Tiny 版本参数量为2710万,大型的Base 版本则为6150万。而相比之下,OpenAI 的同类模型参数量更大,Whisper tiny.en 为3780万,base.en 为7260万。
测试结果显示,Moonshine 的Tiny 模型在准确性上与Whisper 相当,同时消耗的计算资源更少。在各种音频水平和背景噪声的情况下,Moonshine 的两个版本在词错误率(WER)上都低于Whisper,显示出较强的性能。
研究团队指出,Moonshine 在处理极短音频片(少于一秒)时仍有提升空间。这些短音频在训练数据中占比较小,增加这类音频片段的训练可能会提升模型的表现。
此外,Moonshine 的离线能力开辟了新的应用场景,之前由于硬件限制而无法实现的应用现在变得可行。与需要较高功耗的Whisper 不同,Moonshine 适合在智能手机和小型设备(如树莓派)上运行。 Useful Sensors 正在利用Moonshine 开发其英西翻译器Torre。
Moonshine 的代码已经在GitHub 上发布,用户需要注意,像Whisper 这样的AI 转录系统可能会出现错误。一些研究表明,Whisper 在生成内容时有1.4% 的概率会出现虚假信息,特别是对于有语言障碍的人群,错误率更高。
项目入口:https://github.com/usefulsensors/moonshine
Moonshine开源语音识别模型的出现为低资源设备上的语音识别应用带来了新的可能,其高效的性能和灵活的架构使其在诸多领域具有广阔的应用前景。但用户也需要注意其潜在的误差,并谨慎使用。 Downcodes小编建议大家关注其后续的更新和改进。