AI玩《我的世界》大比拼！ Claude新版建築水平驚艷全網

作者：Eve Cole 更新時間：2024-11-28 13:48:02

近日，一場別開生面的AI能力評測在《我的世界》平台上展開，吸引了許多目光。這場由開發者adi發起，被戲稱為「唯一可靠的AI評測基準」的測試，讓新舊版本的Claude3.5Sonnet模型在遊戲中展開了一場建築PK，新版本Sonnet3.6展現出令人矚目的實力。 Downcodes小編帶你深入了解這場獨特的AI能力大比拼，以及它背後的技術細節與未來展望。

近日，一場別開生面的AI能力評測在《我的世界》平台上展開，吸引了大量關注。新舊兩個版本的Claude3.5Sonnet在遊戲中展開建築PK，展現出明顯的能力差異，新版本（暫稱Sonnet3.6）的表現尤其亮眼。

這項由開發者adi發起的測試被戲稱為唯一可靠的評測基準。評測基準研究者Aidan McLau認為這個方法恰好滿足了當前AI評測的需求，並指出美感能力與智力水平密切相關。該專案很快就獲得了開源社群的支持，相關程式碼已在GitHub上線。

測試結果顯示，各大模型都展現出獨特的個性:

Sonnet3.6在創意性方面略勝一籌，獲得2,000多位網友的投票支持

OpenAI的o1-preview雖然建造速度較慢，但在還原真實建築（如泰姬陵）時表現出色

o1-mini則無法完成相關任務

Llama3405B建造了象徵自我的火坑上的鑽石牆

阿里的Qwen2.5-14B也展現出不俗實力

值得注意的是，AI在遊戲中的建造過程並不依賴視覺理解或直接控制輸入設備，而是透過文字形式提供上下文並產生操作指令，類似於下盲棋。技術實現上主要依靠:

mineflayer開源函式庫:將AI產生的指令轉換為可執行的API調用

mindcraft開源庫:提供通用提示詞和範例，支援各類模型接入遊戲

專案小組計畫將此評測機制進一步完善，打造類似Lmsys競技場的評分系統，採用Elo演算法根據人類使用者投票進行排名。據悉，完整測試環境僅需15分鐘即可建置完成。

這種新穎的評測方式不僅展現了AI的創造力，也為大模型能力的客觀評估提供了全新視野。正如o1-preview在自由發揮時選擇建造機器人並拼出GPT字樣，AI似乎已經開始在這個虛擬世界中展現自己的個性。隨著更多模型加入測試，這個經典遊戲正成為見證AI發展的獨特平台。

影片教學:

https://x.com/mckaywrigley/status/1849613686098506064

開源代碼:

https://github.com/kolbytn/mindcraft

https://github.com/mc-bench/orchestrator

透過這場別出心裁的Minecraft AI建築比賽，我們看到了AI在創造力和問題解決能力上的不同表現。這項測試為AI能力評估提供了新的思路，也預示著AI技術在未來將有更廣闊的發展空間。期待更多模式加入，共同見證AI在《我的世界》中創造的奇蹟！