Google DeepMind の Gemini 実験版 (Exp1114) は、Chatbot Arena プラットフォーム上で驚くべきパフォーマンスを発揮します。 6,000 を超える投票を得たコミュニティ テストの結果、いくつかの主要な分野、特に数学、複雑なプロンプト、クリエイティブ ライティングの分野で競合他社を上回り、強力な全体的な能力を実証しました。 Downcodes の編集者は、Gemini-Exp-1114 の優れたパフォーマンスとそれに対する業界の解釈を深く理解することができます。
Google DeepMind の最新の Gemini 実験版 (Exp1114) は、Chatbot Arena プラットフォームで素晴らしい結果を達成しました。 1 週間以上のコミュニティ テストを経て、蓄積された 6,000 票を超えるデータは、この新しいモデルが競合製品を大幅に上回っており、多くの重要な領域で驚くべき強さを示していることを示しています。
全体的なスコアに関しては、Gemini-Exp-1114 は 40 ポイントを超える優れたスコアで GPT-4-latest と同率 1 位となり、これまで首位を走っていた GPT-4-preview バージョンを上回りました。さらに驚くべきことは、このモデルが数学、複雑なプロンプト、クリエイティブライティングなどのコア領域でトップに到達し、その強力な総合力を示していることです。
特に、Gemini-Exp-1114 の進歩は目覚ましいものです。
総合ランキング3位から1位に浮上
数学能力評価が3位から1位に上昇
複雑なプロンプト処理が 4 位から 1 位に上昇
クリエイティブライティングのパフォーマンスが 2 位から 1 位に向上
視覚処理機能もリストの上位にあります
プログラミングレベルも5位から3位に向上
Google AI Studio は、ユーザーが体験できるようにこの新しいバージョンを正式にリリースしました。ただし、コミュニティは、1,000 トークンの制限がまだ存在するかどうかや、非常に長いテキスト出力などの実用的な問題をどのように処理するかなど、いくつかの特定の問題についても懸念を表明しています。
業界アナリストは、この画期的な進歩は、Google の AI 分野への長期投資が実を結び始めていることを示していると考えています。興味深いことに、このモデルはスタイル制御で 4 位のランキングを維持しています。これは、開発チームが事前トレーニングされたモデルに変更を加えるのではなく、主にトレーニング後の新しい手法を採用したことを意味している可能性があります。
この大きな進歩は、業界構造に関する議論も引き起こしました。 OpenAIは競合他社が重要なアップデートをリリースする際に新製品を発表することが多かったが、今回はGoogleの進歩が非常に大きく、業界の注目を集めている。これはGemini2の登場を告げるものであり、大型モデル分野におけるGoogleの競争力が大幅に向上しているのではないかと考える人もいる。
Gemini-Exp-1114 の優れたパフォーマンスは、大規模 AI モデルの分野における Google の新たな画期的な進歩を示すとともに、将来の AI 開発にさらなる可能性をもたらします。 Gemini の次のバージョンでさらに驚きが生まれることを楽しみにしています。