تقارير محرر Downcodes: تصدر نظام chatbot الذي تم إصداره حديثًا من OpenAI القائمة في التقييمات الأخيرة، وهو يؤدي أداءً جيدًا من حيث الأداء العام والأمان والقدرات التقنية، خاصة في مهام العلوم والتكنولوجيا والهندسة والرياضيات. ومع ذلك، تجدر الإشارة إلى أن عدد التقييمات المشاركة في هذا التقييم كان منخفضًا نسبيًا، مما قد يكون له تأثير معين على النتائج النهائية ويجب تفسيره بحذر.
حقق نظام OpenAI الجديد نتائج ممتازة في التقييمات الأخيرة، حيث احتل المركز الأول في تصنيفات chatbot. ومع ذلك، نظرًا لانخفاض عدد التقييمات، فقد يؤدي ذلك إلى تحريف نتائج التقييم.
ووفقاً للاستعراض العام للإصدار، كان أداء الأنظمة الجديدة جيداً في جميع فئات التقييم، بما في ذلك الأداء العام والسلامة والقدرات التقنية. وقد احتل أحد الأنظمة المخصصة لمهام العلوم والتكنولوجيا والهندسة والرياضيات (STEM) المرتبة الثانية لفترة وجيزة واحتل الصدارة في مجال التكنولوجيا، إلى جانب إصدار GPT-4o الذي تم إصداره في أوائل سبتمبر.
تقوم Chatbot Arena، وهي عبارة عن منصة لمقارنة الأنظمة المختلفة، بتقييم الأنظمة الجديدة باستخدام أكثر من 6000 تقييم مجتمعي. وأظهرت النتائج أن هذه الأنظمة الجديدة كان أداؤها جيدًا في المهام الرياضية والمطالبات المعقدة والبرمجة.
ومع ذلك، فإن هذه الأنظمة الجديدة تحصل على تقييمات أقل بكثير من الأنظمة الناضجة الأخرى مثل GPT-4o أو Anthropic's Claude3.5، ولكل منها أقل من 3000 مراجعة. مثل هذا الحجم الصغير للعينة قد يؤدي إلى تحريف التقييم والحد من أهمية النتائج.
يتفوق نظام OpenAI الجديد في الرياضيات والبرمجة، والتي كانت الأهداف الرئيسية لتصميمه. ومن خلال "التفكير" لفترة أطول قبل الإجابة، تهدف هذه الأنظمة إلى وضع معايير جديدة لاستدلال الذكاء الاصطناعي. ومع ذلك، فإن هذه الأنظمة لا تتفوق على غيرها في جميع المجالات. لا تتطلب العديد من المهام تفكيرًا منطقيًا معقدًا، وفي بعض الأحيان تكون الاستجابة السريعة من الأنظمة الأخرى كافية.
يُظهر مخطط Lmsys الخاص بقوة النموذج الرياضي بوضوح أن هذه الأنظمة الجديدة سجلت أكثر من 1360، وهو أعلى بكثير من أداء الأنظمة الأخرى.
على الرغم من حجم العينة المحدود، إلا أن الأداء الممتاز لنظام OpenAI الجديد لا يزال يستحق الاهتمام. توفر اختراقاتها في مجالات الرياضيات والبرمجة اتجاهًا جديدًا لتطوير تكنولوجيا الذكاء الاصطناعي. في المستقبل، ومع تراكم المزيد من البيانات والتحسين المستمر للنماذج، من المتوقع أن يُظهر نظام OpenAI الجديد قدراته القوية في المزيد من المجالات. سيستمر محرر Downcodes في الاهتمام بتطويره.