Baru -baru ini, evaluasi kemampuan AI yang unik telah diluncurkan di "Minecraft", menarik perhatian luas. Model AI yang berbeda bersaing dalam permainan, dan memutuskan kelangsungan hidup yang paling cocok melalui pemungutan suara pemain, memberikan ide -ide baru untuk evaluasi kemampuan AI. Tes yang diprakarsai oleh pengembang ADI dianggap sebagai suplemen yang efektif untuk evaluasi AI saat ini.
Baru -baru ini, evaluasi kemampuan AI yang unik diluncurkan pada platform "Minecraft", menarik banyak perhatian. Versi baru dan lama Claude 3.5Sonnet telah meluncurkan arsitektur PK dalam permainan, menunjukkan perbedaan kemampuan yang jelas, dan kinerja versi baru (sementara disebut "Sonnet 3.6") sangat mengesankan.
Tes ini, yang diprakarsai oleh pengembang ADI, dijuluki "satu -satunya tolok ukur evaluasi yang dapat diandalkan." Evaluasi Benchmark Peneliti Aidan McLau percaya bahwa metode ini hanya memenuhi kebutuhan evaluasi AI saat ini dan menunjukkan bahwa kemampuan estetika terkait erat dengan tingkat intelektual. Proyek ini dengan cepat menerima dukungan dari komunitas open source, dan kode yang relevan telah diluncurkan di GitHub.
Hasil tes menunjukkan bahwa semua model utama menunjukkan "kepribadian" yang unik:
Sonnet3.6 sedikit lebih baik dalam hal kreativitas, dan telah memenangkan suara lebih dari 2.000 netizen
Meskipun preview O1 Openai lambat dibangun, ia berkinerja baik ketika memulihkan bangunan nyata (seperti Taj Mahal).
o1-mini tidak dapat menyelesaikan tugas terkait
Llama3405b membangun "dinding berlian di atas lubang api" yang melambangkan dirinya sendiri
Qwen2.5-14b Alibaba juga menunjukkan kekuatan luar biasa
Perlu dicatat bahwa proses konstruksi AI dalam permainan tidak bergantung pada pemahaman visual atau secara langsung mengontrol perangkat input, tetapi menyediakan konteks dan menghasilkan instruksi operasi melalui teks, mirip dengan bermain catur buta. Implementasi teknologi terutama bergantung pada:
Mineflayer Perpustakaan Sumber Terbuka: Mengubah Instruksi yang Dibebaskan AI menjadi Panggilan API yang Dapat Dieksekusi
Perpustakaan Open Source MindCraft: Menyediakan kata dan contoh prompt umum, dan mendukung berbagai model untuk mengakses game
Tim proyek berencana untuk lebih meningkatkan mekanisme evaluasi ini, menciptakan sistem penilaian yang mirip dengan arena LMSys, dan menggunakan algoritma ELO untuk memberi peringkat sesuai dengan pemungutan suara pengguna manusia. Dilaporkan bahwa lingkungan pengujian lengkap dapat diselesaikan hanya dalam 15 menit.
Metode evaluasi baru ini tidak hanya menunjukkan kreativitas AI, tetapi juga memberikan perspektif baru untuk evaluasi obyektif kemampuan model skala besar. Sama seperti O1-preview memilih untuk membangun robot dan menjelaskan kata-kata "GPT" ketika itu bebas untuk dimainkan, AI tampaknya telah mulai menunjukkan "kepribadian" di dunia virtual ini. Karena lebih banyak model ditambahkan ke dalam tes, permainan klasik ini menjadi platform unik untuk menyaksikan pengembangan AI.
Tutorial Video:
https://x.com/mckaywrigley/status/1849613686098506064
Kode Sumber Terbuka:
https://github.com/kolbytn/mindcraft
https://github.com/mc-bench/orchestrator
Evaluasi kemampuan membangun model AI yang dilakukan melalui platform Minecraft memberikan perspektif baru untuk mengevaluasi tingkat kreativitas dan kecerdasan AI, dan juga menunjukkan potensi pengembangan AI yang berkelanjutan di dunia virtual. Di masa depan, dengan lebih banyak model yang berpartisipasi dan mekanisme evaluasi membaik, evaluasi ini akan memberikan referensi yang lebih berharga untuk pengembangan bidang AI.