xAI チームの最新の大規模言語モデルである Grok-2 および Grok-Mini は、LMSys チャットボット アリーナのランキングで目覚ましい結果を達成しました。 Grok-2 は、その強力なパフォーマンス、特に数学的タスクにおける卓越したパフォーマンスにより、Google の Gemini モデルと並んで 2 位にランクされ、5 月には OpenAI GPT-4o をも上回り、この成果はコミュニティ ユーザーから 6,000 人以上の支持を得ました。 Grok-Mini も好調で 5 位に終わりました。このランキングの大幅な向上は、AI モデルの研究開発分野における xAI チームの強力な力を証明するとともに、将来の大規模言語モデルの開発に新たな方向性と可能性をもたらします。
データによると、xAI チームの 2 つのモデル、Grok-2 と Grok-Mini が LMSys チャットボット アリーナ ランキングに正式にランクインし、その中で Grok-2 が OpenAI の GPT-4o (5 か月) を上回って 2 位にランクインしました。最新の Gemini モデルと並んで、6,000 人を超えるコミュニティ ユーザーからの積極的な投票によってサポートされています。
Grok-2 は数学タスクで特に優れたパフォーマンスを示し、このカテゴリで 1 位を獲得し、複雑なプロンプト、プログラミング、指示に従うなどの他の複数のタスクでも 2 位の優れた結果を達成したことは注目に値します。これに対し、Grok-2-Miniは5位にランクインし、かなりの強さを示した。
Grok-2-Mini では速度も大幅に向上し、以前の 2 倍の速度で動作するようになりました。この飛躍的な改善は、xAI の推論チームによるもので、推論スタックを完全に書き直し、SGLang を使用して、より効率的なマルチホスト推論と精度の向上を実現しました。同時に、チームは、モデルの全体的なパフォーマンスをさらに向上させるために、新しいコンピューティングと通信のコア アルゴリズム、およびより優れたバッチ処理のスケジューリングと定量化テクノロジも導入しました。
Grok-2 のパフォーマンスに懐疑的で、OpenAI の GPT-4o の方が優れていると信じている人もいますが、実際に使用すると、多くのユーザーは Grok-2 がプログラミングや数学のタスクで非常に優れたパフォーマンスを発揮すると述べています。 Grok-2シリーズのモデルは今月ベータ版がリリースされており、ユーザーはXプラットフォームを通じて体験することもできるほか、FLUX.1画像生成モデルを使用した画像作成にも対応している。
ハイライト:
✨ Grok-2 は LMSys チャットボット ランキングで 2 位にランクされ、GPT-4o (5 月) を上回り、Gemini と同率 2 位になりました。
Grok-2 は数学タスクで好成績を収め、1 位を獲得し、他の多くのタスクでも最高のランクにランクされました。
Grok-2-Mini は以前の 2 倍の速度となり、パフォーマンスがさらに向上しました。
Grok-2 と Grok-Mini の優れたパフォーマンスは、AI テクノロジーの分野における xAI チームの革新能力を証明するだけでなく、将来の大規模言語モデルの開発に新たな参考資料を提供します。数学やプログラミングなどの特定の分野におけるこれらの利点は、専門的なアプリケーションにおける大規模な言語モデルの大きな可能性を示しています。 xAI チームは今後さらに多くの驚きをもたらすと信じています。