AI เล่นการแข่งขัน "Minecraft"! ระดับสถาปัตยกรรมรุ่นใหม่ของ Claude นั้นยอดเยี่ยมตลอดทั้งเครือข่าย - บทความ AI

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-02-05 18:16:01

เมื่อเร็ว ๆ นี้การประเมินความสามารถ AI ที่ไม่เหมือนใครได้เปิดตัวใน "Minecraft" ซึ่งดึงดูดความสนใจอย่างกว้างขวาง โมเดล AI ที่แตกต่างกันแข่งขันในเกมและตัดสินใจเกี่ยวกับการอยู่รอดของผู้ที่เหมาะสมที่สุดผ่านการลงคะแนนของผู้เล่นโดยให้แนวคิดใหม่สำหรับการประเมินความสามารถของ AI การทดสอบนี้เริ่มต้นโดยนักพัฒนา ADI ได้รับการพิจารณาว่าเป็นอาหารเสริมที่มีประสิทธิภาพในการประเมิน AI ในปัจจุบัน

เมื่อเร็ว ๆ นี้การประเมินความสามารถ AI ที่ไม่เหมือนใครได้เปิดตัวบนแพลตฟอร์ม "Minecraft" ดึงดูดความสนใจเป็นอย่างมาก Claude 3.5Sonnet เวอร์ชันใหม่และเก่าได้เปิดตัวสถาปัตยกรรม PK ในเกมแสดงความแตกต่างที่ชัดเจนและประสิทธิภาพของเวอร์ชันใหม่ (เรียกว่า "Sonnet 3.6") เป็นสิ่งที่น่าประทับใจเป็นพิเศษ

การทดสอบนี้เริ่มต้นโดยนักพัฒนา ADI ได้รับฉายาว่า "เกณฑ์มาตรฐานการประเมินที่เชื่อถือได้เพียงอย่างเดียว" นักวิจัยมาตรฐานการประเมิน Aidan McLau เชื่อว่าวิธีนี้เป็นไปตามความต้องการในปัจจุบันของการประเมิน AI และชี้ให้เห็นว่าความสามารถด้านสุนทรียภาพนั้นเกี่ยวข้องอย่างใกล้ชิดกับระดับทางปัญญา โครงการได้รับการสนับสนุนอย่างรวดเร็วจากชุมชนโอเพ่นซอร์สและรหัสที่เกี่ยวข้องได้เปิดตัวใน GitHub

ผลการทดสอบแสดงให้เห็นว่าทุกรุ่นที่สำคัญแสดง "บุคลิกภาพ" ที่ไม่ซ้ำกัน:

SONNET3.6 ดีขึ้นเล็กน้อยในแง่ของความคิดสร้างสรรค์และได้รับคะแนนโหวตมากกว่า 2,000 ชาวเน็ต

แม้ว่าการพิสูจน์ O1-Preview ของ OpenAI นั้นช้าในการสร้าง แต่ก็ทำงานได้ดีเมื่อฟื้นฟูอาคารจริง (เช่นทัชมาฮาล)

O1-MINI ไม่สามารถทำงานที่เกี่ยวข้องให้เสร็จสมบูรณ์ได้

LLAMA3405B สร้าง "ผนังเพชรบนหลุมไฟ" ซึ่งเป็นสัญลักษณ์ของตัวเอง

QWEN2.5-14B ของอาลีบาบาก็แสดงให้เห็นถึงความแข็งแกร่งที่โดดเด่น

เป็นที่น่าสังเกตว่ากระบวนการก่อสร้างของ AI ในเกมไม่ได้ขึ้นอยู่กับความเข้าใจด้านภาพหรือควบคุมอุปกรณ์อินพุตโดยตรง แต่ให้บริบทและสร้างคำแนะนำในการดำเนินการผ่านข้อความคล้ายกับการเล่นหมากรุกคนตาบอด การใช้เทคโนโลยีส่วนใหญ่อาศัย:

ไลบรารีโอเพ่น

Mindcraft Open Source Library: ให้คำและตัวอย่างที่รวดเร็วและสนับสนุนรุ่นต่างๆในการเข้าถึงเกม

ทีมงานโครงการวางแผนที่จะปรับปรุงกลไกการประเมินนี้ต่อไปสร้างระบบการให้คะแนนคล้ายกับ LMSYS Arena และใช้อัลกอริทึม ELO เพื่อจัดอันดับตามการลงคะแนนของผู้ใช้มนุษย์ มีรายงานว่าสภาพแวดล้อมการทดสอบที่สมบูรณ์สามารถทำได้ในเวลาเพียง 15 นาที

วิธีการประเมินใหม่นี้ไม่เพียง แต่แสดงให้เห็นถึงความคิดสร้างสรรค์ของ AI แต่ยังให้มุมมองใหม่สำหรับการประเมินวัตถุประสงค์ของความสามารถของแบบจำลองขนาดใหญ่ เช่นเดียวกับ O1-Preview เลือกที่จะสร้างหุ่นยนต์และสะกดคำว่า "GPT" เมื่อมันมีอิสระที่จะเล่น AI ดูเหมือนจะเริ่มแสดง "บุคลิกภาพ" ในโลกเสมือนจริงนี้ เมื่อมีการเพิ่มโมเดลในการทดสอบมากขึ้นเกมคลาสสิกนี้กำลังกลายเป็นแพลตฟอร์มที่ไม่เหมือนใครเพื่อเป็นพยานถึงการพัฒนาของ AI

วิดีโอสอน:

https://x.com/mckaywrigley/status/18496136860985060644

รหัสโอเพ่นซอร์ส:

https://github.com/kolbytn/mindcraft

https://github.com/mc-bench/orchestrator

การประเมินความสามารถในการสร้างอาคาร AI ที่ดำเนินการผ่านแพลตฟอร์ม Minecraft ให้มุมมองใหม่สำหรับการประเมินความคิดสร้างสรรค์และระดับความฉลาดของ AI และยังแสดงให้เห็นถึงศักยภาพในการพัฒนาอย่างต่อเนื่องของ AI ในโลกเสมือนจริง ในอนาคตด้วยแบบจำลองเพิ่มเติมที่มีส่วนร่วมและกลไกการประเมินผลการปรับปรุงการประเมินนี้จะให้การอ้างอิงที่มีค่ามากขึ้นสำหรับการพัฒนาสนาม AI