近日,一场别开生面的AI能力评测在《我的世界》平台上展开,吸引了众多目光。这场由开发者adi发起,被戏称为“唯一可靠的AI评测基准”的测试,让新旧版本的Claude3.5Sonnet模型在游戏中展开了一场建筑PK,新版本Sonnet3.6展现出令人瞩目的实力。Downcodes小编带你深入了解这场独特的AI能力大比拼,以及它背后的技术细节和未来展望。
近日,一场别开生面的AI能力评测在《我的世界》平台上展开,吸引了大量关注。新旧两个版本的Claude3.5Sonnet在游戏中展开建筑PK,展现出明显的能力差异,新版本(暂称Sonnet3.6)的表现尤其亮眼。
这项由开发者adi发起的测试被戏称为唯一可靠的评测基准。评测基准研究者Aidan McLau认为这个方法恰好满足了当前AI评测的需求,并指出审美能力与智力水平密切相关。该项目很快获得了开源社区的支持,相关代码已在GitHub上线。
测试结果显示,各大模型都展现出独特的个性:
Sonnet3.6在创意性方面略胜一筹,获得2000多名网友的投票支持
OpenAI的o1-preview虽然构建速度较慢,但在还原真实建筑(如泰姬陵)时表现出色
o1-mini则无法完成相关任务
Llama3405B建造了象征自我的火坑上的钻石墙
阿里的Qwen2.5-14B也展现出不俗实力
值得注意的是,AI在游戏中的建造过程并不依赖视觉理解或直接控制输入设备,而是通过文本形式提供上下文并生成操作指令,类似于下盲棋。技术实现上主要依靠:
mineflayer开源库:将AI生成的指令转换为可执行的API调用
mindcraft开源库:提供通用提示词和示例,支持各类模型接入游戏
项目组计划将这一评测机制进一步完善,打造类似Lmsys竞技场的评分系统,采用Elo算法根据人类用户投票进行排名。据悉,完整测试环境仅需15分钟即可搭建完成。
这种新颖的评测方式不仅展示了AI的创造力,也为大模型能力的客观评估提供了全新视角。正如o1-preview在自由发挥时选择搭建机器人并拼出GPT字样,AI似乎已经开始在这个虚拟世界中展现自己的个性。随着更多模型加入测试,这个经典游戏正在成为见证AI发展的独特平台。
视频教程:
https://x.com/mckaywrigley/status/1849613686098506064
开源代码:
https://github.com/kolbytn/mindcraft
https://github.com/mc-bench/orchestrator
通过这场别出心裁的Minecraft AI建筑比赛,我们看到了AI在创造力和问题解决能力上的不同表现。这项测试为AI能力评估提供了新的思路,也预示着AI技术在未来将有更广阔的发展空间。期待更多模型加入,共同见证AI在《我的世界》中创造的奇迹!