最近、『Minecraft』プラットフォーム上で独自のAI能力評価が開始され、大きな注目を集めています。開発者 adi によって開始され、「唯一信頼できる AI 評価ベンチマーク」と呼ばれるこのテストにより、Claude3.5 Sonnet モデルの新旧バージョンがゲーム内で構築 PK を開始できるようになり、Sonnet3.6 の新バージョンは印象的なパフォーマンスを示しました。 。 強さ。 Downcodes の編集者は、AI 機能におけるこのユニークな競争と、その背後にある技術的な詳細と将来の見通しについて深く理解することができます。
最近、『Minecraft』プラットフォーム上で独自のAI能力評価が開始され、大きな注目を集めています。 Claude 3.5 Sonnet の新旧バージョンはゲーム内で PK の構築を開始し、新バージョン (仮称 Sonnet 3.6) のパフォーマンスが特に目を引きました。
開発者 adi によって開始されたこのテストは、唯一信頼できる評価ベンチマークと呼ばれています。評価ベンチマーク研究者のエイダン・マクロー氏は、この手法がまさに現在のAI評価のニーズを満たしていると考えており、美的能力は知能レベルと密接な関係があると指摘している。このプロジェクトはすぐにオープンソース コミュニティからの支持を獲得し、関連するコードは GitHub 上にオンラインで公開されました。
テスト結果は、各主要モデルが独自の個性を示していることを示しています。
Sonnet3.6 は創造性の点でわずかに優れており、2,000 人以上のネチズンから投票を受けました。
OpenAI の o1-preview はビルドに時間がかかりますが、実際の建物 (タージ マハルなど) を復元する場合には良好なパフォーマンスを発揮します。
o1-mini は関連タスクを完了できません
ラマ 3405B は自己を象徴するダイヤモンドの壁をファイヤーピットの上に構築しました
アリババのQwen2.5-14Bも強さを見せた
注目に値するのは、ゲームにおける AI の構築プロセスは、視覚的な理解や入力デバイスの直接制御に依存せず、ブラインド チェスのプレイと同様に、コンテキストを提供し、テキスト形式で操作指示を生成することです。技術的な実装は主に以下に依存します。
Mineflayer オープン ソース ライブラリ: AI が生成した命令を実行可能な API 呼び出しに変換する
Mindcraft オープン ソース ライブラリ: 一般的なプロンプト ワードと例を提供し、ゲームに接続するさまざまなモデルをサポートします。
プロジェクト チームは、この評価メカニズムをさらに改善し、人間のユーザー投票に基づいてランク付けする Elo アルゴリズムを使用して、Lmsys Arena と同様のスコアリング システムを作成する予定です。完全なテスト環境はわずか 15 分でセットアップできると報告されています。
この新しい評価方法は、AI の創造性を実証するだけでなく、大規模モデルの機能を客観的に評価するための新しい視点を提供します。 o1-preview がロボットを作り、自由遊び中に GPT という言葉を綴ることを選んだのと同じように、AI はこの仮想世界で独自の個性を示し始めているようです。テストに追加されるモデルが増えるにつれて、この古典的なゲームは AI の発展を目撃するためのユニークなプラットフォームになりつつあります。
ビデオチュートリアル:
https://x.com/mckaywrigley/status/1849613686098506064
オープンソースコード:
https://github.com/kolbytn/mindcraft
https://github.com/mc-bench/orchestrator
このユニークな Minecraft AI 構築コンテストを通じて、私たちは創造性と問題解決能力における AI のさまざまなパフォーマンスを目の当たりにしました。このテストは、AI の能力評価に新しいアイデアを提供するとともに、将来的に AI テクノロジーの開発スペースがより広範になることを示しています。 『Minecraft』の AI が生み出す奇跡を目撃するために、より多くのモデルが参加することを楽しみにしています!