摩尔线程开源了其音频理解大模型MooER,这是业界首个基于国产全功能GPU训练和推理的大型开源语音模型,具有里程碑式的意义。MooER支持中英文语音识别和中译英语音翻译,展现了强大的多语言处理能力,其创新性的三部分模型结构(Encoder、Adapter和Decoder)使得模型能够高效处理音频并执行下游任务。目前已开源推理代码和基于5000小时数据训练的模型,未来还将开源训练代码和基于8万小时数据训练的增强版模型,这将极大推动国内外音频AI技术的发展。
MooER在多个知名开源音频理解大模型的对比测试中表现出色,中文字错误率(CER)低至4.21%,英文词错误率(WER)为17.98%,尤其在中译英测试集上的BLEU分数高达25.2,领先其他开源模型。基于8万小时数据训练的MooER-80k模型性能更强,CER和WER分别降至3.50%和12.66%,展现了巨大的潜力。摩尔线程此举不仅展示了国产GPU在AI领域的强大实力,也为全球音频AI技术发展注入了新的活力,令人期待MooER在未来能带来更多突破。
在与多个知名开源音频理解大模型的对比测试中,MooER-5K表现优异。在中文测试中,其字错误率(CER)达到4.21%;英文测试中,词错误率(WER)为17.98%,与其他顶级模型相比表现更优或相当。特别值得一提的是,在Covost2zh2en中译英测试集上,MooER的BLEU分数高达25.2,大幅领先其他开源模型,达到了可与工业级应用媲美的水平。
更令人期待的是,基于8万小时数据训练的MooER-80k模型展现出更强大的性能,在中文测试集上的CER进一步降至3.50%,英文测试集上的WER也优化到12.66%,显示了巨大的发展潜力。
摩尔线程此次开源MooER不仅展示了国产GPU在AI领域的应用实力,也为全球音频AI技术的发展注入了新的活力。随着更多训练数据和代码的开源,业界期待MooER能在语音识别、翻译等领域带来更多突破性进展,推动音频AI技术的普及和创新应用。
地址:https://arxiv.org/pdf/2408.05101
MooER的开源,标志着国产GPU在AI大模型领域取得了重大进展,为国内外开发者提供了宝贵的资源和平台。期待未来MooER能够在更多应用场景中发挥作用,推动音频AI技术的持续创新和发展。