เมื่อเร็ว ๆ นี้การประเมินความสามารถ AI ที่ไม่เหมือนใครได้เปิดตัวใน "Minecraft" ซึ่งดึงดูดความสนใจอย่างกว้างขวาง โมเดล AI ที่แตกต่างกันแข่งขันในเกมและตัดสินใจเกี่ยวกับการอยู่รอดของผู้ที่เหมาะสมที่สุดผ่านการลงคะแนนของผู้เล่นโดยให้แนวคิดใหม่สำหรับการประเมินความสามารถของ AI การทดสอบนี้เริ่มต้นโดยนักพัฒนา ADI ได้รับการพิจารณาว่าเป็นอาหารเสริมที่มีประสิทธิภาพในการประเมิน AI ในปัจจุบัน
เมื่อเร็ว ๆ นี้การประเมินความสามารถ AI ที่ไม่เหมือนใครได้เปิดตัวบนแพลตฟอร์ม "Minecraft" ดึงดูดความสนใจเป็นอย่างมาก Claude 3.5Sonnet เวอร์ชันใหม่และเก่าได้เปิดตัวสถาปัตยกรรม PK ในเกมแสดงความแตกต่างที่ชัดเจนและประสิทธิภาพของเวอร์ชันใหม่ (เรียกว่า "Sonnet 3.6") เป็นสิ่งที่น่าประทับใจเป็นพิเศษ
การทดสอบนี้เริ่มต้นโดยนักพัฒนา ADI ได้รับฉายาว่า "เกณฑ์มาตรฐานการประเมินที่เชื่อถือได้เพียงอย่างเดียว" นักวิจัยมาตรฐานการประเมิน Aidan McLau เชื่อว่าวิธีนี้เป็นไปตามความต้องการในปัจจุบันของการประเมิน AI และชี้ให้เห็นว่าความสามารถด้านสุนทรียภาพนั้นเกี่ยวข้องอย่างใกล้ชิดกับระดับทางปัญญา โครงการได้รับการสนับสนุนอย่างรวดเร็วจากชุมชนโอเพ่นซอร์สและรหัสที่เกี่ยวข้องได้เปิดตัวใน GitHub
ผลการทดสอบแสดงให้เห็นว่าทุกรุ่นที่สำคัญแสดง "บุคลิกภาพ" ที่ไม่ซ้ำกัน:
SONNET3.6 ดีขึ้นเล็กน้อยในแง่ของความคิดสร้างสรรค์และได้รับคะแนนโหวตมากกว่า 2,000 ชาวเน็ต
แม้ว่าการพิสูจน์ O1-Preview ของ OpenAI นั้นช้าในการสร้าง แต่ก็ทำงานได้ดีเมื่อฟื้นฟูอาคารจริง (เช่นทัชมาฮาล)
O1-MINI ไม่สามารถทำงานที่เกี่ยวข้องให้เสร็จสมบูรณ์ได้
LLAMA3405B สร้าง "ผนังเพชรบนหลุมไฟ" ซึ่งเป็นสัญลักษณ์ของตัวเอง
QWEN2.5-14B ของอาลีบาบาก็แสดงให้เห็นถึงความแข็งแกร่งที่โดดเด่น
เป็นที่น่าสังเกตว่ากระบวนการก่อสร้างของ AI ในเกมไม่ได้ขึ้นอยู่กับความเข้าใจด้านภาพหรือควบคุมอุปกรณ์อินพุตโดยตรง แต่ให้บริบทและสร้างคำแนะนำในการดำเนินการผ่านข้อความคล้ายกับการเล่นหมากรุกคนตาบอด การใช้เทคโนโลยีส่วนใหญ่อาศัย:
ไลบรารีโอเพ่น
Mindcraft Open Source Library: ให้คำและตัวอย่างที่รวดเร็วและสนับสนุนรุ่นต่างๆในการเข้าถึงเกม
ทีมงานโครงการวางแผนที่จะปรับปรุงกลไกการประเมินนี้ต่อไปสร้างระบบการให้คะแนนคล้ายกับ LMSYS Arena และใช้อัลกอริทึม ELO เพื่อจัดอันดับตามการลงคะแนนของผู้ใช้มนุษย์ มีรายงานว่าสภาพแวดล้อมการทดสอบที่สมบูรณ์สามารถทำได้ในเวลาเพียง 15 นาที
วิธีการประเมินใหม่นี้ไม่เพียง แต่แสดงให้เห็นถึงความคิดสร้างสรรค์ของ AI แต่ยังให้มุมมองใหม่สำหรับการประเมินวัตถุประสงค์ของความสามารถของแบบจำลองขนาดใหญ่ เช่นเดียวกับ O1-Preview เลือกที่จะสร้างหุ่นยนต์และสะกดคำว่า "GPT" เมื่อมันมีอิสระที่จะเล่น AI ดูเหมือนจะเริ่มแสดง "บุคลิกภาพ" ในโลกเสมือนจริงนี้ เมื่อมีการเพิ่มโมเดลในการทดสอบมากขึ้นเกมคลาสสิกนี้กำลังกลายเป็นแพลตฟอร์มที่ไม่เหมือนใครเพื่อเป็นพยานถึงการพัฒนาของ AI
วิดีโอสอน:
https://x.com/mckaywrigley/status/18496136860985060644
รหัสโอเพ่นซอร์ส:
https://github.com/kolbytn/mindcraft
https://github.com/mc-bench/orchestrator
การประเมินความสามารถในการสร้างอาคาร AI ที่ดำเนินการผ่านแพลตฟอร์ม Minecraft ให้มุมมองใหม่สำหรับการประเมินความคิดสร้างสรรค์และระดับความฉลาดของ AI และยังแสดงให้เห็นถึงศักยภาพในการพัฒนาอย่างต่อเนื่องของ AI ในโลกเสมือนจริง ในอนาคตด้วยแบบจำลองเพิ่มเติมที่มีส่วนร่วมและกลไกการประเมินผลการปรับปรุงการประเมินนี้จะให้การอ้างอิงที่มีค่ามากขึ้นสำหรับการพัฒนาสนาม AI