xAI公司开源了其3140亿参数的混合专家模型Grok-1,引发了人工智能领域的广泛关注。该模型的权重和网络架构完全开放,基于大量文本数据进行从头训练,未进行特定应用微调,激活权重为25%。采用JAX库和Rust语言进行自定义训练,并遵守Apache2.0许可证,方便开发者使用和二次开发。模型的开源,为研究人员提供了宝贵的学习和研究资源,也推动了人工智能领域的进一步发展。虽然部分研究者认为其开放程度还有待提高,但Grok-1的发布无疑是人工智能领域的一大进步。
马斯克旗下xAI公司宣布开源3140亿参数的混合专家模型「Grok-1」,权重和网络架构全开放。模型从头训练,没有特定应用微调,基于大量文本数据训练,MoE模型激活权重为25%。采用JAX库和Rust语言自定义训练堆栈,遵守Apache2.0许可证,热度持续增加。模型存储库提供JAX示例代码,需要GPU内存较大,提供磁力链接下载权重文件。研究者评价Grok-1开放程度较低,预测比LLaMA-2强,提供了模型架构细节,并呼吁更多公开细节。
Grok-1的开源,虽然在开放程度方面存在一些争议,但其强大的性能和开放的许可证,使其成为一个值得关注的模型,并有望推动大语言模型领域的发展。 未来,期待更多类似的开源项目出现,共同促进人工智能技术的进步。 模型的获取和使用需要一定的技术门槛,但这并不妨碍其对人工智能研究的贡献。