Baru-baru ini, evaluasi kemampuan AI yang unik diluncurkan pada platform "Minecraft", menarik banyak perhatian. Tes ini, yang diprakarsai oleh pengembang adi dan dijuluki "satu-satunya tolok ukur evaluasi AI yang andal", memungkinkan model Sonnet Claude3.5 versi baru dan lama untuk memulai PK konstruksi dalam game . kekuatan. Editor Downcodes akan memberi Anda pemahaman mendalam tentang persaingan unik dalam kemampuan AI ini, serta detail teknis dan prospek masa depan di baliknya.
Baru-baru ini, evaluasi kemampuan AI yang unik diluncurkan pada platform "Minecraft", menarik banyak perhatian. Versi lama dan baru dari Claude 3.5 Sonnet mulai membangun PK dalam game, menunjukkan perbedaan kemampuan yang jelas. Performa versi baru (sementara disebut Sonnet 3.6) sangat menarik perhatian.
Tes yang diprakarsai oleh pengembang adi ini dijuluki sebagai satu-satunya tolok ukur evaluasi yang dapat diandalkan. Peneliti tolok ukur evaluasi Aidan McLau percaya bahwa metode ini hanya memenuhi kebutuhan evaluasi AI saat ini, dan menunjukkan bahwa kemampuan estetika berkaitan erat dengan tingkat kecerdasan. Proyek ini dengan cepat mendapatkan dukungan dari komunitas open source, dan kode yang relevan telah online di GitHub.
Hasil pengujian menunjukkan bahwa setiap model utama menunjukkan kepribadian yang unik:
Sonnet3.6 sedikit lebih baik dalam hal kreativitas dan menerima suara lebih dari 2.000 netizen.
Meskipun o1-preview OpenAI lambat untuk dibuat, ia bekerja dengan baik ketika memulihkan bangunan nyata (seperti Taj Mahal)
o1-mini tidak dapat menyelesaikan tugas terkait
Llama3405B membangun dinding berlian di atas lubang api yang melambangkan diri
Qwen2.5-14B milik Alibaba juga menunjukkan kekuatan yang luar biasa
Perlu dicatat bahwa proses konstruksi AI dalam game tidak bergantung pada pemahaman visual atau kontrol langsung terhadap perangkat input, tetapi memberikan konteks dan menghasilkan instruksi pengoperasian dalam bentuk teks, mirip dengan bermain catur buta. Implementasi teknis terutama bergantung pada:
perpustakaan sumber terbuka mineflayer: Ubah instruksi yang dihasilkan AI menjadi panggilan API yang dapat dieksekusi
perpustakaan sumber terbuka mindcraft: menyediakan kata-kata dan contoh perintah umum, dan mendukung berbagai model untuk dihubungkan ke permainan
Tim proyek berencana untuk lebih meningkatkan mekanisme evaluasi ini dan membuat sistem penilaian yang mirip dengan Lmsys Arena, menggunakan algoritma Elo untuk menentukan peringkat berdasarkan suara pengguna manusia. Dilaporkan bahwa lingkungan pengujian lengkap dapat diatur hanya dalam 15 menit.
Metode evaluasi baru ini tidak hanya menunjukkan kreativitas AI, namun juga memberikan perspektif baru untuk evaluasi objektif kemampuan model besar. Sama seperti o1-preview yang memilih untuk membuat robot dan mengeja kata GPT saat bermain gratis, AI sepertinya sudah mulai menunjukkan kepribadiannya sendiri di dunia virtual ini. Semakin banyak model yang ditambahkan ke pengujian, game klasik ini menjadi platform unik untuk menyaksikan perkembangan AI.
Pelajaran video:
https://x.com/mckaywrigley/status/1849613686098506064
Kode sumber terbuka:
https://github.com/kolbytn/mindcraft
https://github.com/mc-bench/orchestrator
Melalui kompetisi konstruksi AI Minecraft yang unik ini, kami melihat perbedaan performa AI dalam kreativitas dan kemampuan pemecahan masalah. Tes ini memberikan ide baru untuk penilaian kemampuan AI, dan juga menunjukkan bahwa teknologi AI akan memiliki ruang pengembangan yang lebih luas di masa depan. Kami menantikan lebih banyak model yang bergabung untuk menyaksikan keajaiban yang diciptakan oleh AI di "Minecraft"!