o3 รุ่นล่าสุดของ OpenAI ได้รับผลลัพธ์ที่น่าประทับใจในเกณฑ์มาตรฐาน ARC-AGI โดยให้คะแนนสูงถึง 75.7% ภายใต้เงื่อนไขการประมวลผลมาตรฐาน และ 87.5% ในเวอร์ชันที่มีการประมวลผลสูง ผลลัพธ์นี้เหนือกว่ารุ่นก่อนๆ ทั้งหมดอย่างมาก และได้รับความสนใจอย่างกว้างขวางในด้านการวิจัย AI เกณฑ์มาตรฐาน ARC-AGI ได้รับการออกแบบมาเพื่อประเมินความสามารถของระบบ AI ในการปรับให้เข้ากับงานใหม่ๆ และแสดงให้เห็นถึงความชาญฉลาดที่ลื่นไหล ซึ่งเป็นเรื่องยากมากและถือเป็นหนึ่งในมาตรฐานที่ท้าทายที่สุดในการประเมิน AI ประสิทธิภาพที่ก้าวล้ำของ o3 นำมาซึ่งทิศทางใหม่และความเป็นไปได้ในการพัฒนา AI อย่างไม่ต้องสงสัย แต่ไม่ได้หมายความว่า AGI จะถูกทำลาย
o3 รุ่นล่าสุดที่เปิดตัวโดย OpenAI บรรลุผลลัพธ์ที่น่าทึ่งในเกณฑ์มาตรฐาน ARC-AGI โดยให้คะแนนสูงถึง 75.7% ภายใต้เงื่อนไขการประมวลผลมาตรฐาน และเวอร์ชันการประมวลผลระดับสูงสูงถึง 87.5% ความสำเร็จนี้สร้างความประหลาดใจให้กับชุมชนการวิจัย AI แต่ก็ยังไม่ได้พิสูจน์ว่าปัญญาประดิษฐ์ทั่วไป (AGI) ถูกทำลาย
เกณฑ์มาตรฐาน ARC-AGI อิงตาม Abstract Reasoning Corpus ซึ่งเป็นการทดสอบที่ออกแบบมาเพื่อประเมินความสามารถของระบบ AI ในการปรับให้เข้ากับงานใหม่ๆ และแสดงให้เห็นถึงความฉลาดของของเหลว ARC ประกอบด้วยชุดปริศนาภาพที่ต้องเข้าใจแนวคิดพื้นฐาน เช่น วัตถุ ขอบเขต และความสัมพันธ์เชิงพื้นที่ มนุษย์สามารถไขปริศนาเหล่านี้ได้อย่างง่ายดาย แต่ระบบ AI ในปัจจุบันต้องเผชิญกับความท้าทายที่ยิ่งใหญ่ในเรื่องนี้ ARC ถือเป็นเกณฑ์หนึ่งที่ท้าทายที่สุดในการประเมิน AI
o3 ทำงานได้ดีกว่ารุ่นก่อนๆ อย่างเห็นได้ชัด คะแนนสูงสุดของ o1-preview และ o1 model บน ARC-AGI คือ 32% ก่อนหน้านี้ นักวิจัย Jeremy Berman ใช้วิธีการแบบผสมผสานเพื่อรวม Claude3.5Sonnet เข้ากับอัลกอริธึมทางพันธุกรรม ซึ่งได้รับคะแนน 53% และการปรากฏตัวของ o3 ถือเป็นการก้าวกระโดดในความสามารถของ AI
François Chollet ผู้ก่อตั้ง ARC ยกย่อง o3 สำหรับการเปลี่ยนแปลงเชิงคุณภาพในด้านความสามารถของ AI และเชื่อว่าความสามารถในการปรับตัวเข้ากับงานใหม่ๆ มาถึงระดับที่ไม่เคยมีมาก่อน
แม้ว่า o3 จะทำงานได้ดี แต่ค่าใช้จ่ายในการคำนวณก็ค่อนข้างสูงเช่นกัน ภายใต้การกำหนดค่าการประมวลผลต่ำ การไขปริศนาแต่ละอันมีค่าใช้จ่ายระหว่าง 17 ถึง 20 ดอลลาร์ และใช้โทเค็น 33 ล้านโทเค็น ภายใต้การกำหนดค่าการประมวลผลสูง ค่าใช้จ่ายในการคำนวณเพิ่มขึ้นเป็น 172 เท่า โดยใช้โทเค็นนับพันล้าน อย่างไรก็ตาม เนื่องจากต้นทุนของการอนุมานค่อยๆ ลดลง ค่าใช้จ่ายเหล่านี้จึงอาจสมเหตุสมผลมากขึ้น
ขณะนี้ยังไม่มีรายละเอียดว่า o3 ประสบความสำเร็จในการพัฒนาครั้งนี้ได้อย่างไร นักวิทยาศาสตร์บางคนคาดการณ์ว่า o3 อาจใช้วิธีการสังเคราะห์โปรแกรมที่รวมกลไกการคิดแบบลูกโซ่และการค้นหาเข้าด้วยกัน นักวิทยาศาสตร์คนอื่นๆ เชื่อว่า o3 อาจมาจากการขยายการเรียนรู้แบบเสริมกำลังเพิ่มเติม
แม้ว่า o3 จะมีความก้าวหน้าอย่างมากเกี่ยวกับ ARC-AGI แต่ Chollet เน้นย้ำว่า ARC-AGI ไม่ใช่การทดสอบ AGI และ o3 ยังไม่ถึงมาตรฐาน AGI มันยังทำงานได้ไม่ดีกับงานง่ายๆ บางอย่าง ซึ่งแสดงให้เห็นความแตกต่างพื้นฐานจากสติปัญญาของมนุษย์ นอกจากนี้ o3 ยังคงอาศัยการตรวจสอบจากภายนอกในระหว่างกระบวนการให้เหตุผล ซึ่งยังห่างไกลจากความสามารถในการเรียนรู้ที่เป็นอิสระของ AGI
ทีมงาน Chollet กำลังพัฒนาเกณฑ์มาตรฐานที่ท้าทายใหม่เพื่อทดสอบความสามารถของ o3 และคาดว่าจะลดคะแนนให้ต่ำกว่า 30% เขาชี้ให้เห็นว่า AGI ที่แท้จริงหมายความว่าแทบจะเป็นไปไม่ได้เลยที่จะสร้างงานที่เรียบง่ายสำหรับมนุษย์ แต่ยากสำหรับ AI
ไฮไลท์:
o3 ได้รับคะแนนสูงถึง 75.7% ในการทดสอบเกณฑ์มาตรฐาน ARC-AGI ซึ่งมีประสิทธิภาพเหนือกว่ารุ่นก่อนหน้า
ค่าใช้จ่ายในการไขปริศนาแต่ละปริศนาใน o3 สูงถึง 17 ถึง 20 ดอลลาร์สหรัฐ ซึ่งเป็นการคำนวณจำนวนมาก
แม้ว่า o3 จะทำงานได้ดี แต่ผู้เชี่ยวชาญย้ำว่ายังไม่ถึงมาตรฐาน AGI
โดยรวมแล้ว ประสิทธิภาพที่ยอดเยี่ยมของโมเดล o3 ในการทดสอบ ARC-AGI แสดงให้เห็นถึงความก้าวหน้าที่สำคัญของปัญญาประดิษฐ์ในความสามารถในการให้เหตุผลเชิงนามธรรม แต่นี่เป็นเพียงก้าวเล็กๆ บนเส้นทางสู่ AGI ที่แท้จริง การวิจัยในอนาคตยังคงต้องมีการสำรวจต่อไปเพื่อแก้ปัญหาต้นทุนการประมวลผลที่สูงและปัญหาหลักของ AGI