近期,一場別具一格的AI能力評測在《我的世界》中展開,引發廣泛關注。不同AI模型在遊戲中進行建築比拼,通過玩家投票決定優勝劣汰,為AI能力評估提供了新思路。開發者adi發起的這項測試,被認為是目前AI評測的有效補充,其核心在於將審美能力與智力水平相結合,並獲得了開源社區的大力支持,相關代碼已公開。
近日,一場別開生面的AI能力評測在《我的世界》平台上展開,吸引了大量關注。新舊兩個版本的Claude3.5Sonnet在遊戲中展開建築PK,展現出明顯的能力差異,新版本(暫稱"Sonnet3.6")的表現尤其亮眼。
這項由開發者adi發起的測試被戲稱為"唯一可靠的評測基準"。評測基準研究者Aidan McLau認為這個方法恰好滿足了當前AI評測的需求,並指出審美能力與智力水平密切相關。該項目很快獲得了開源社區的支持,相關代碼已在GitHub上線。
測試結果顯示,各大模型都展現出獨特的"個性":
Sonnet3.6在創意性方面略勝一籌,獲得2000多名網友的投票支持
OpenAI的o1-preview雖然構建速度較慢,但在還原真實建築(如泰姬陵)時表現出色
o1-mini則無法完成相關任務
Llama3405B建造了象徵自我的"火坑上的鑽石牆"
阿里的Qwen2.5-14B也展現出不俗實力
值得注意的是,AI在遊戲中的建造過程並不依賴視覺理解或直接控制輸入設備,而是通過文本形式提供上下文並生成操作指令,類似於下盲棋。技術實現上主要依靠:
mineflayer開源庫:將AI生成的指令轉換為可執行的API調用
mindcraft開源庫:提供通用提示詞和示例,支持各類模型接入遊戲
項目組計劃將這一評測機制進一步完善,打造類似Lmsys競技場的評分系統,採用Elo算法根據人類用戶投票進行排名。據悉,完整測試環境僅需15分鐘即可搭建完成。
這種新穎的評測方式不僅展示了AI的創造力,也為大模型能力的客觀評估提供了全新視角。正如o1-preview在自由發揮時選擇搭建機器人並拼出"GPT"字樣,AI似乎已經開始在這個虛擬世界中展現自己的"個性"。隨著更多模型加入測試,這個經典遊戲正在成為見證AI發展的獨特平台。
視頻教程:
https://x.com/mckaywrigley/status/1849613686098506064
開源代碼:
https://github.com/kolbytn/mindcraft
https://github.com/mc-bench/orchestrator
通過《我的世界》平台進行的AI模型建築能力評測,為評估AI創造力與智力水平提供了新穎的視角,也展現了AI在虛擬世界中不斷發展的潛力。 未來,隨著更多模型參與和評測機制的完善,這項評測將為AI領域的發展提供更多有價值的參考。