最近、「Minecraft」でユニークなAI機能評価が開始され、広範な注目が集まっています。さまざまなAIモデルがゲームで競合し、プレーヤーの投票を通じて適者の生存を決定し、AI能力評価のための新しいアイデアを提供します。開発者ADIによって開始されたこのテストは、現在のAI評価の効果的な補足であると考えられています。
最近、「Minecraft」プラットフォームでユニークなAI機能評価が開始され、多くの注目が集まりました。 Claude 3.5Sonnetの新しいバージョンと古いバージョンは、ゲームでアーキテクチャのPKを発売し、明らかな能力の違いを示しており、新しいバージョン(暫定的に「Sonnet 3.6」と呼ばれる)のパフォーマンスは特に印象的です。
開発者ADIによって開始されたこのテストは、「唯一の信頼できる評価ベンチマーク」と呼ばれています。評価ベンチマークの研究者であるエイアン・マクラウは、この方法はAI評価の現在のニーズを満たしているだけでなく、美的能力が知的レベルと密接に関連していると指摘しています。このプロジェクトは、オープンソースコミュニティからすぐにサポートを受け、関連するコードがGitHubで開始されました。
テスト結果は、すべての主要なモデルがユニークな「性格」を示していることを示しています。
Sonnet3.6は創造性の点でわずかに優れており、2,000人以上のネチズンの票を獲得しました
OpenaiのO1-Previewは構築が遅いですが、実際の建物(Taj Mahalなど)を復元するとうまく機能します。
O1-MINIは関連するタスクを完了できません
llama3405bは、それ自体を象徴する「ダイヤモンドの壁に火の穴」を構築します
AlibabaのQWEN2.5-14Bも優れた強度を示しました
ゲーム内のAIの構築プロセスは、視覚的理解に依存せず、入力デバイスの直接制御に依存せず、ブラインドチェスの再生と同様に、テキストを通じてコンテキストを提供し、操作手順を生成することは注目に値します。テクノロジーの実装は、主に次のことに依存しています。
MineFlayerオープンソースライブラリ:AI生成命令を実行可能なAPI呼び出しに変換する
MindCraft Open Sourceライブラリ:一般的な迅速な単語と例を提供し、ゲームにアクセスするためのさまざまなモデルをサポートします
プロジェクトチームは、この評価メカニズムをさらに改善し、LMSYSアリーナに似たスコアリングシステムを作成し、ELOアルゴリズムを使用して人間のユーザー投票に従ってランク付けすることを計画しています。完全なテスト環境はわずか15分で完了できると報告されています。
この新しい評価方法は、AIの創造性を実証するだけでなく、大規模なモデル能力の客観的評価のための新しい視点も提供します。 O1-Previewがロボットを構築し、自由にプレイできるときに「GPT」という言葉を綴ることを選択したように、AIはこの仮想世界でその「個性」を見せ始めたようです。より多くのモデルがテストに追加されると、このクラシックゲームはAIの開発を目撃するユニークなプラットフォームになりつつあります。
ビデオチュートリアル:
https://x.com/mckaywrigley/status/1849613686098506064
オープンソースコード:
https://github.com/kolbytn/mindcraft
https://github.com/mc-bench/orchestrator
Minecraftプラットフォームを通じて実施されるAIモデルの構築能力評価は、AIの創造性と知性レベルを評価するための新しい視点を提供し、仮想世界におけるAIの継続的な開発の可能性も示しています。 将来的には、より多くのモデルが参加し、評価メカニズムが改善されているため、この評価はAI分野の開発においてより価値のある参照を提供します。