علم محرر Downcodes أن أحدث الأبحاث من OpenAI تظهر أنه حتى مع التقدم السريع لتكنولوجيا الذكاء الاصطناعي، فإن دقة نماذج اللغة الحالية الأكثر تقدمًا في الإجابة على الأسئلة الواقعية لا تزال مثيرة للقلق. استخدمت هذه الدراسة معيار SimpleQA الخاص بشركة OpenAI، وأظهرت نتائج الاختبار أن دقة أفضل نماذج OpenAI كانت أقل بكثير من المتوقع، مما أدى إلى إعادة فحص قدرات اكتساب المعرفة لنماذج الذكاء الاصطناعي.
استخدمت الدراسة اختبار SimpleQA القياسي الخاص بشركة OpenAI، ويحتوي هذا الاختبار على 4326 سؤالًا، تغطي مجالات متعددة مثل العلوم والسياسة والفن.
بعد التحقق من قبل اثنين من المراجعين المستقلين، أظهرت النتائج أن دقة أفضل نموذج o1 لمعاينة OpenAI تبلغ 42.7% فقط، في حين أن GPT-4o أقل قليلاً، 38.2% فقط. أما بالنسبة للطراز GPT-4o-mini الأصغر حجمًا، فتبلغ الدقة 8.6% فقط. بالمقارنة، كان أداء نموذج كلود الأنثروبي أسوأ من ذلك، حيث حققت السوناتة كلود 3.5 دقة تبلغ 28.9% فقط.
يكمن مفتاح هذا البحث في تصميم الاختبار، ليس فقط لاختبار أداء الذكاء الاصطناعي، ولكن أيضًا لتوعية الجميع بقيود نماذج الذكاء الاصطناعي في اكتساب المعرفة. ويؤكد الباحثون أنه عندما يستخدم المستخدمون هذه النماذج، يجب عليهم التعامل معها كأدوات لمعالجة المعلومات وليس كمصادر للمعرفة تعتمد بشكل كامل. ومن أجل الحصول على إجابات أكثر دقة، فمن الأفضل تزويد الذكاء الاصطناعي ببيانات موثوقة بدلاً من الاعتماد فقط على معرفته المدمجة.
ومن الجدير بالذكر أن نماذج الذكاء الاصطناعي غالبًا ما تكون لديها تقديرات مفرطة في التفاؤل بشأن قدراتها. وجد الباحثون أنه عندما طُلب من هذه النماذج تقييم الثقة في إجاباتهم، غالبًا ما أعطوا درجات دقة مبالغ فيها. في الاختبارات التي تم فيها الإجابة على نفس الأسئلة بشكل متكرر، حتى لو أعطت النماذج نفس الإجابة عدة مرات، كان معدل نجاحها الفعلي لا يزال أقل من دقتها التي تم تقييمها ذاتيًا. ويتفق هذا مع النقد الخارجي القائل بأن نماذج اللغة غالبًا ما تنتج إجابات سخيفة ولكنها تبدو واثقة.
يعتقد الباحثون أن نظام الذكاء الاصطناعي الحالي به فجوات واضحة في الدقة الواقعية ويحتاج إلى تحسين عاجل. كما أثاروا سؤالًا مفتوحًا حول ما إذا كان أداء الذكاء الاصطناعي في الإجابة على الأسئلة الواقعية القصيرة يتنبأ بأدائه في معالجة استجابات أطول وأكثر تعقيدًا. من أجل دعم تطوير نماذج لغوية أكثر موثوقية، أصدرت OpenAI علنًا بيانات قياس SimpleQA إلى Github.
يبدو هذا البحث بمثابة تحذير بشأن موثوقية نماذج الذكاء الاصطناعي ويشير إلى الاتجاه نحو التحسينات المستقبلية. نحن بحاجة إلى استخدام أدوات الذكاء الاصطناعي بعناية أكبر ونتطلع إلى تحقيق اختراقات أكبر في الدقة الواقعية لنماذج الذكاء الاصطناعي في المستقبل. ستساعد البيانات المعيارية SimpleQA التي تم إصدارها علنًا من OpenAI في تعزيز تطوير مجال الذكاء الاصطناعي بأكمله.