xAI Grok-2 擠進聊天機器人排行榜第二名，緊追GPT-4o

作者：Eve Cole 更新時間：2024-12-23 10:48:02

xAI 团队的最新大型语言模型Grok-2和Grok-Mini在LMSys聊天机器人Arena排行榜上取得了令人瞩目的成绩。Grok-2凭借其强大的性能，尤其在数学任务方面的突出表现，荣登第二名，与谷歌的Gemini模型并列，甚至超越了5月份的OpenAI GPT-4o，这一成就得到了超过6000名社区用户的认可。Grok-Mini 也表现不俗，位列第五。此次排名显著提升，展现了xAI团队在AI模型研发领域的强大实力，也为大型语言模型的未来发展提供了新的方向和可能性。

数据显示，xAI 团队的Grok-2和 Grok-Mini 这两款模型正式跻身 LMSys 聊天机器人Arena排行榜，其中Grok-2以第二名的佳绩脱颖而出，这一表现超过了 OpenAI 的 GPT-4o（5月份），与最新的 Gemini 模型并列，由超过6000名社区用户的积极投票支持。

值得一提的是，Grok-2在数学任务方面表现尤其出色，荣获该类别的第一名，同时在多个其他任务中也取得了第二名的优异成绩，包括复杂提示、编程和遵循指令等。相较之下，Grok-2-Mini 则以第五名的成绩进入排行榜，展现了其不俗的实力。

Grok-2-Mini 也经历了显著的速度提升，现如今的运行速度是之前的两倍。这一飞跃的改进源自于 xAI 的推理团队，他们彻底重写了推理堆栈，利用 SGLang 实现了更高效的多主机推理和精确度的提升。同时，团队还引入了新的计算和通信内核算法，以及更优的批处理调度和量化技术，进一步提升了模型的整体性能。

尽管有些人对 Grok-2的表现持怀疑态度，认为 OpenAI 的 GPT-4o 更为出色，但在实际使用中，许多用户纷纷表示 Grok-2在编程和数学任务上确实表现得相当出色。Grok-2系列模型本月以测试版发布，用户还可以通过 X 平台进行体验，此外，该模型还支持使用 FLUX.1图像生成模型进行图像创作。

划重点:

✨ Grok-2在 LMSys 聊天机器人排行榜中获得第二名，超过 GPT-4o（五月份），与 Gemini 并排第二。

Grok-2在数学任务上表现优秀，获得第一名，同时在其他多个任务中也名列前茅。

Grok-2-Mini 实现速度提升，是之前速度的两倍，进一步增强了性能表现。

Grok-2和Grok-Mini的出色表现，不仅证明了xAI团队在AI技术领域的创新能力，也为未来大型语言模型的发展提供了新的参考。其在特定领域的优势，例如数学和编程，预示着大型语言模型在专业领域应用的巨大潜力。相信未来xAI团队会带来更多惊喜。