ล่าสุด มีการเปิดตัวการประเมินความสามารถ AI ที่ไม่เหมือนใครบนแพลตฟอร์ม "Minecraft" ซึ่งดึงดูดความสนใจเป็นอย่างมาก การทดสอบนี้ริเริ่มโดยนักพัฒนาซอฟต์แวร์ adi และมีชื่อเล่นว่า "เกณฑ์มาตรฐานการประเมิน AI ที่เชื่อถือได้เพียงแห่งเดียว" ทำให้โมเดล Claude3.5 Sonnet เวอร์ชันใหม่และเก่าสามารถเริ่มการสร้าง PK ในเกมได้ เวอร์ชันใหม่ของ Sonnet3.6 แสดงให้เห็นประสิทธิภาพที่น่าประทับใจ . ความแข็งแกร่ง. บรรณาธิการของ Downcodes จะทำให้คุณมีความเข้าใจในเชิงลึกเกี่ยวกับการแข่งขันที่ไม่เหมือนใครในด้านความสามารถของ AI รวมถึงรายละเอียดทางเทคนิคและโอกาสในอนาคตที่อยู่เบื้องหลัง
ล่าสุด มีการเปิดตัวการประเมินความสามารถ AI ที่ไม่เหมือนใครบนแพลตฟอร์ม "Minecraft" ซึ่งดึงดูดความสนใจเป็นอย่างมาก Claude 3.5 Sonnet เวอร์ชันเก่าและเวอร์ชันใหม่เริ่มสร้าง PK ในเกม ซึ่งแสดงให้เห็นถึงความสามารถที่แตกต่างกันอย่างเห็นได้ชัด ประสิทธิภาพของเวอร์ชันใหม่ (ชื่อชั่วคราวว่า Sonnet 3.6) นั้นสะดุดตาเป็นพิเศษ
การทดสอบนี้ริเริ่มโดยนักพัฒนาซอฟต์แวร์ adi ได้รับการขนานนามว่าเป็นเกณฑ์การประเมินที่เชื่อถือได้เพียงหนึ่งเดียว Aidan McLau นักวิจัยเกณฑ์มาตรฐานการประเมิน เชื่อว่าวิธีนี้ตอบสนองความต้องการในการประเมิน AI ในปัจจุบันได้ และชี้ให้เห็นว่าความสามารถด้านสุนทรียภาพมีความสัมพันธ์อย่างใกล้ชิดกับระดับความฉลาด โปรเจ็กต์นี้ได้รับการสนับสนุนอย่างรวดเร็วจากชุมชนโอเพ่นซอร์ส และโค้ดที่เกี่ยวข้องก็ออนไลน์อยู่บน GitHub
ผลการทดสอบแสดงให้เห็นว่าโมเดลหลักแต่ละรุ่นมีบุคลิกที่เป็นเอกลักษณ์:
Sonnet3.6 ดีขึ้นเล็กน้อยในแง่ของความคิดสร้างสรรค์และได้รับคะแนนโหวตจากชาวเน็ตมากกว่า 2,000 คน
แม้ว่าการแสดงตัวอย่าง o1 ของ OpenAI จะสร้างได้ช้า แต่ก็ทำงานได้ดีเมื่อฟื้นฟูอาคารจริง (เช่น ทัชมาฮาล)
o1-mini ไม่สามารถทำงานที่เกี่ยวข้องได้
Llama3405B สร้างกำแพงเพชรเหนือหลุมไฟซึ่งเป็นสัญลักษณ์ของตัวตน
Qwen2.5-14B ของอาลีบาบาก็แสดงให้เห็นถึงความแข็งแกร่งเช่นกัน
เป็นที่น่าสังเกตว่ากระบวนการสร้าง AI ในเกมไม่ได้ขึ้นอยู่กับความเข้าใจด้วยภาพหรือการควบคุมอุปกรณ์อินพุตโดยตรง แต่ให้บริบทและสร้างคำแนะนำการใช้งานในรูปแบบของข้อความ คล้ายกับการเล่นหมากรุกตาบอด การใช้งานทางเทคนิคส่วนใหญ่ขึ้นอยู่กับ:
ไลบรารีโอเพ่นซอร์ส mineflayer: แปลงคำสั่งที่สร้างโดย AI เป็นการเรียก API ที่ปฏิบัติการได้
ไลบรารีโอเพ่นซอร์สของ Mindcraft: ให้คำและตัวอย่างพร้อมท์ทั่วไป และรองรับโมเดลต่างๆ ที่จะเชื่อมต่อกับเกม
ทีมงานโครงการวางแผนที่จะปรับปรุงกลไกการประเมินนี้ต่อไป และสร้างระบบการให้คะแนนที่คล้ายคลึงกับ Lmsys Arena โดยใช้อัลกอริทึม Elo เพื่อจัดอันดับตามคะแนนโหวตของผู้ใช้ มีรายงานว่าสามารถตั้งค่าสภาพแวดล้อมการทดสอบทั้งหมดได้ภายในเวลาเพียง 15 นาที
วิธีการประเมินแบบใหม่นี้ไม่เพียงแต่แสดงให้เห็นถึงความคิดสร้างสรรค์ของ AI เท่านั้น แต่ยังให้มุมมองใหม่สำหรับการประเมินตามวัตถุประสงค์ของความสามารถของโมเดลขนาดใหญ่อีกด้วย เช่นเดียวกับที่ o1-preview เลือกสร้างหุ่นยนต์และสะกดคำว่า GPT ในระหว่างเล่นฟรี ดูเหมือนว่า AI จะเริ่มแสดงบุคลิกของตัวเองในโลกเสมือนจริงนี้ เมื่อมีการเพิ่มโมเดลในการทดสอบมากขึ้น เกมคลาสสิกนี้จึงกลายเป็นแพลตฟอร์มที่มีเอกลักษณ์ในการเป็นสักขีพยานในการพัฒนา AI
วิดีโอสอน:
https://x.com/mckaywrigley/status/1849613686098506064
โอเพ่นซอร์สโค้ด:
https://github.com/kolbytn/mindcraft
https://github.com/mc-bench/orchestrator
จากการแข่งขันการสร้าง Minecraft AI ที่ไม่เหมือนใคร เราได้เห็นประสิทธิภาพที่แตกต่างกันของ AI ในด้านความคิดสร้างสรรค์และความสามารถในการแก้ปัญหา การทดสอบนี้ให้แนวคิดใหม่สำหรับการประเมินความสามารถของ AI และยังบ่งชี้ว่าเทคโนโลยี AI จะมีพื้นที่การพัฒนาที่กว้างขึ้นในอนาคต เราหวังว่าจะมีโมเดลอื่นๆ มาร่วมเป็นสักขีพยานในปาฏิหาริย์ที่สร้างโดย AI ใน "Minecraft"!