حقق أحدث طراز من OpenAI، o3، نتائج مبهرة على معيار ARC-AGI، حيث سجل ما يصل إلى 75.7% في ظل ظروف الحوسبة القياسية و87.5% في إصدار الحوسبة العالية. هذه النتيجة تتجاوز بكثير جميع النماذج السابقة وقد جذبت اهتمامًا واسع النطاق في مجال أبحاث الذكاء الاصطناعي. تم تصميم معيار ARC-AGI لتقييم قدرة أنظمة الذكاء الاصطناعي على التكيف مع المهام الجديدة وإظهار الذكاء السلس، وهو أمر صعب للغاية ويعتبر أحد المعايير الأكثر تحديًا في تقييم الذكاء الاصطناعي. لا شك أن الأداء المذهل لـ o3 يجلب اتجاهات وإمكانيات جديدة لتطوير الذكاء الاصطناعي، لكن هذا لا يعني أن الذكاء الاصطناعي العام قد تم اختراقه.
حقق أحدث طراز o3 الذي أصدرته OpenAI نتائج مذهلة في معيار ARC-AGI، حيث سجل ما يصل إلى 75.7% في ظل ظروف الحوسبة القياسية، كما وصل الإصدار عالي الحوسبة إلى 87.5%. فاجأ هذا الإنجاز مجتمع أبحاث الذكاء الاصطناعي، لكنه لا يزال لا يثبت أن عمومية الذكاء الاصطناعي (AGI) قد تم اختراقها.
يعتمد معيار ARC-AGI على مجموعة الاستدلال المجرد، وهو اختبار مصمم لتقييم قدرة نظام الذكاء الاصطناعي على التكيف مع المهام الجديدة وإظهار الذكاء المرن. يتكون ARC من سلسلة من الألغاز المرئية التي تتطلب فهم المفاهيم الأساسية مثل الأشياء والحدود والعلاقات المكانية. يمكن للبشر حل هذه الألغاز بسهولة، لكن أنظمة الذكاء الاصطناعي الحالية تواجه تحديات كبيرة في هذا الصدد. يعتبر ARC أحد المعايير الأكثر تحديًا في تقييم الذكاء الاصطناعي.
أداء o3 أفضل بكثير من النماذج السابقة. أعلى درجة لمعاينة o1 ونموذج o1 على ARC-AGI هي 32%. وقبل ذلك، استخدم الباحث جيريمي بيرمان طريقة هجينة لدمج Claude3.5Sonnet مع خوارزمية جينية، محققًا درجة 53%، واعتبر ظهور o3 بمثابة قفزة في قدرات الذكاء الاصطناعي.
وأشاد فرانسوا شوليت، مؤسس ARC، بشركة o3 للتغيير النوعي الذي أحدثته في قدرات الذكاء الاصطناعي، ورأى أنها وصلت إلى مستوى غير مسبوق في قدرتها على التكيف مع المهام الجديدة.
على الرغم من أن أداء o3 جيد، إلا أن تكلفته الحسابية مرتفعة جدًا أيضًا. في ظل تكوين الحوسبة المنخفض، يتكلف حل كل لغز ما بين 17 دولارًا و20 دولارًا، ويستهلك 33 مليون رمزًا؛ بينما في ظل تكوين الحوسبة العالي، تزيد التكلفة الحسابية إلى 172 مرة، باستخدام مليارات الرموز. ومع ذلك، مع انخفاض تكلفة الاستدلال تدريجياً، قد تصبح هذه النفقات العامة أكثر معقولية.
لا توجد حاليًا تفاصيل حول كيفية تحقيق o3 لهذا الاختراق. يتوقع بعض العلماء أن o3 قد يستخدم طريقة تركيب البرنامج التي تجمع بين التفكير المتسلسل وآليات البحث. يعتقد علماء آخرون أن o3 قد يأتي ببساطة من توسيع نطاق التعلم المعزز.
على الرغم من أن o3 قد حقق تقدمًا كبيرًا في ARC-AGI، أكد شوليه أن ARC-AGI ليس اختبارًا لـ AGI وأن o3 لم يصل بعد إلى معايير AGI. ولا يزال أداؤه ضعيفًا في بعض المهام البسيطة، مما يظهر اختلافات جوهرية عن الذكاء البشري. بالإضافة إلى ذلك، لا يزال o3 يعتمد على التحقق الخارجي أثناء عملية التفكير، وهو أمر بعيد كل البعد عن القدرة على التعلم المستقل للذكاء الاصطناعي العام.
يقوم فريق Cholet بتطوير معايير جديدة صعبة لاختبار قدرات o3 ويتوقع خفض درجاته إلى أقل من 30%. ويشير إلى أن الذكاء الاصطناعي العام الحقيقي سيعني أنه سيصبح من المستحيل تقريبًا إنشاء مهام بسيطة بالنسبة للبشر ولكنها صعبة بالنسبة للذكاء الاصطناعي.
أبرز النقاط:
حققت o3 درجة عالية بلغت 75.7% في اختبار ARC-AGI القياسي، متفوقة على النماذج السابقة.
تكلفة حل كل لغز في o3 تصل إلى 17 إلى 20 دولارًا أمريكيًا، وهو مبلغ ضخم من الحسابات.
على الرغم من أن أداء o3 جيد، إلا أن الخبراء يؤكدون أنه لم يصل بعد إلى معايير AGI.
بشكل عام، يوضح الأداء الممتاز لنموذج o3 في اختبار ARC-AGI التقدم الكبير الذي أحرزه الذكاء الاصطناعي في قدرات التفكير المجرد، ولكن هذه ليست سوى خطوة صغيرة على الطريق إلى الذكاء الاصطناعي العام الحقيقي. لا تزال الأبحاث المستقبلية بحاجة إلى مواصلة الاستكشاف لحل التكلفة الحسابية العالية والقضايا الأساسية للذكاء الاصطناعي العام.