أصدرت OpenAI جيلًا جديدًا من نموذج الاستدلال o3 ونسخته المبسطة o3-mini، وهي خلفاء لسلسلة o1 وهي مصممة لتحسين دقة الإجابة على الأسئلة من خلال التفكير العميق. حققت شركة o3 تقدمًا كبيرًا في معيار ARC-AGI، مما يدل على قدرات حل المشكلات على مستوى قريب من المستوى البشري. يركز o3-mini على السرعة وفعالية التكلفة، وهو مناسب بشكل خاص لمهام البرمجة. على الرغم من أن نماذج سلسلة o3 لن يتم إصدارها مباشرة للجمهور، إلا أن OpenAI قد فتحتها للباحثين الأمنيين للمعاينة.
يعمل نموذج o3 بشكل جيد في العديد من المعايير، على سبيل المثال، الدقة في معيار SWE-bench الذي تم التحقق منه أعلى بنسبة تزيد عن 20% من o1، كما تم تحسين الدقة في رياضيات المنافسة وGPQA Diamond بشكل ملحوظ. قدمت OpenAI أيضًا طريقة جديدة لتقييم الأمان تسمى "المحاذاة التداولية" لضمان أمان النموذج والامتثال للمواصفات الأمنية. حاليًا، يخضع OpenAI لاختبارات الأمان الخارجية وقد فتح تطبيقات الوصول المبكر.
فيما يتعلق بالبرمجة وحل المشكلات الرياضية، أظهر نموذج o3 قدرات رائعة. وفقًا لمعيار التحقق من SWE-bench، تبلغ دقة o3 حوالي 71.7%، وهي أعلى بنسبة 20% من نموذج o1. في قانون المنافسة، حصل o3 على درجة Elo قدرها 2727، بينما حصل o1 على 1891 فقط. بالإضافة إلى ذلك، وصلت دقة o3 في رياضيات المنافسة إلى 96.7%، كما وصلت دقتها في GPQA Diamond إلى 87.7%، وهي أعلى بنسبة 10% تقريبًا من o1.
قدمت OpenAI أيضًا طريقة جديدة لتقييم الأمان - المحاذاة التداولية، وهي نموذج جديد يعلم مواصفات أمان النموذج بشكل مباشر ويمكنه تدريب النموذج على تذكر المواصفات بشكل واضح وتنفيذ المنطق بدقة قبل الإجابة. يُستخدم هذا النهج لمواءمة نماذج سلسلة o الخاصة بـ OpenAI وتحقيق امتثال دقيق للغاية لسياسات OpenAI الأمنية.
تعمل OpenAI حاليًا على الترويج لاختبارات الأمان الخارجية وفتحت تطبيقات الوصول المبكر على الموقع الإلكتروني. ويحتاج المتقدمون إلى ملء نموذج عبر الإنترنت وتقديم المعلومات ذات الصلة. سيتم منح الباحثين المختارين إمكانية الوصول إلى o3 وo3-mini لاستكشاف قدراتهم والمساهمة في التقييمات الأمنية.
يمثل إصدار نماذج سلسلة OpenAI o3 تحسنًا كبيرًا في قدرات الذكاء الاصطناعي المنطقي، ويبشر أدائها المتميز في مجالات متعددة باتجاه جديد لتطوير تكنولوجيا الذكاء الاصطناعي في المستقبل. في المستقبل، سوف نستمر في الاهتمام بالتقدم المحرز وتطبيق نماذج سلسلة o3.