对标GPT-4o！开源大模型Moshi震撼登场：无区域限制，手机兼容 - AI文章

作者：Eve Cole 更新时间：2025-02-21 18:25:02

法国开源AI研究实验室Kyutai近日推出了一款名为Moshi的多模态大模型，这一创新成果不仅标志着技术上的重大突破，更是对当前人工智能领域的一次大胆探索。Moshi的发布，展示了AI技术在语音交互和实时推理方面的巨大潜力，为全球AI爱好者带来了全新的体验。

7月4日凌晨，Kyutai通过其官网正式宣布了Moshi的诞生。这款模型的功能与OpenAI的GPT-4o相当，能够通过语音进行实时问答。然而，与GPT-4o的语音模式需要等到秋季才能全面开放不同，Moshi已经向公众开放使用，这使得它在市场上占据了先机。

Moshi的主要特点包括其多模态能力，即能够听取用户的语音提问并进行实时推理回答。此外，Moshi的语音模式已经全面开放，相比GPT-4o的秋季上线计划，Moshi为用户提供了更快的体验。更重要的是，Moshi无区域限制，全球用户均可使用，且支持手机移动端，尽管对普通话的支持尚不完善，但英语提问完全无障碍。

QQ截图20240704095539.jpg

Kyutai还计划将Moshi开源，届时将公布代码、模型权重和论文，这一举措不仅体现了Kyutai对开源精神的坚持，也为全球开发者和研究者提供了参与Moshi开发和优化的机会。

Moshi的发布无疑是对AI技术的一次大胆尝试。它不仅具备听、说的能力，未来还可能展示出看的能力，这让我们对AI的未来充满了期待。使用Moshi的过程非常简单，只需登录官网，填写邮箱地址，点击加入，就能开始与Moshi进行对话。

值得一提的是，Moshi对普通话的支持还有待提高，使用英语提问会得到更好的体验。此外，Moshi不锁区，无论身在何处，都能直接使用，这无疑为全球的AI爱好者提供了极大的便利。

Kyutai实验室的这一举措，也显示出了他们对开源精神的坚持。他们计划很快开源Moshi，公布代码、模型权重和论文，让全球的开发者和研究者都能参与到Moshi的开发和优化中来。

在使用感受方面，Moshi的响应速度极快，即使在国区线路上使用，也能几乎无延迟地响应提问。目前Moshi主要支持英语和法语，中文普通话支持有待提高。注册流程简单，只需提交邮箱即可。Moshi展示了听和说的能力，未来可能还会增加看的能力。Moshi的拟人化语气是其一大特点，机器味很少，这让对话体验更加自然流畅。

当然，Moshi目前的回答内容还比较有限，只能提供大致的轮廓和概要。但随着产品的不断迭代和优化，我们相信Moshi的回答将变得更加详尽和准确。

此外，Moshi的发布对教育行业也将产生深远的影响。例如，AI可以为学生提供循环讲解，这对于教育帮助是巨大的。我们期待未来能有更多类似的产品出现，支持更多地方语言，让AI技术更加贴近人们的生活。