علم محرر Downcodes أن OpenAI أصدرت معيار تقييم إنشاء التعليمات البرمجية SWE-bench Verified في 13 أغسطس، بهدف تقييم أداء نماذج الذكاء الاصطناعي في مجال هندسة البرمجيات بشكل أكثر دقة. تهدف هذه الخطوة إلى تحسين أوجه القصور في معيار SWE الأصلي، وتحسين موثوقية ودقة التقييم، وتوفير أداة تقييم أكثر فعالية لتطبيق نماذج الذكاء الاصطناعي في تطوير البرمجيات. يقدم المعيار الجديد بيئة Docker في حاوية، والتي تحل المشكلات في المعيار الأصلي مثل اختبار الوحدة الصارم للغاية، ووصف المشكلة غير الواضح، وصعوبة إعداد بيئة التطوير.
أعلنت شركة OpenAI عن إطلاق معيار تقييم إنشاء الأكواد البرمجية SWE-bench Verified في 13 أغسطس، بهدف إجراء تقييم أكثر دقة لأداء نماذج الذكاء الاصطناعي في مهام هندسة البرمجيات. يحل هذا المعيار الجديد العديد من القيود التي كانت موجودة في مقعد SWE السابق.
SWE-bench عبارة عن مجموعة بيانات تقييمية تعتمد على مشكلات البرامج الحقيقية على GitHub، وتحتوي على 2294 زوجًا من طلبات السحب والإصدار من 12 مستودعًا شائعًا لـ Python. ومع ذلك، فإن مقعد SWE الأصلي لديه ثلاث مشاكل رئيسية: اختبارات الوحدة صارمة للغاية وقد ترفض الحلول الصحيحة؛ ووصف المشكلة ليس واضحًا بما فيه الكفاية، ومن الصعب إعداد بيئة التطوير بشكل موثوق.
لمعالجة هذه المشكلات، تقدم SWE-bench Verified مجموعة أدوات تقييم جديدة لبيئات Docker المعبأة في حاويات، مما يجعل عملية التقييم أكثر اتساقًا وموثوقية. أدى هذا التحسن إلى تحسين نتائج أداء نماذج الذكاء الاصطناعي بشكل كبير. على سبيل المثال، قام GPT-4o بحل 33.2% من العينات بموجب المعيار الجديد، في حين تضاعفت أيضًا نتيجة Agentless، وهو إطار عمل الوكيل مفتوح المصدر الأفضل أداءً، إلى 16%.
يوضح هذا التحسن في الأداء أن SWE-bench Verified يمكنه التقاط القدرات الحقيقية لنماذج الذكاء الاصطناعي بشكل أفضل في مهام هندسة البرمجيات. ومن خلال حل القيود المفروضة على المعيار الأصلي، توفر OpenAI أداة تقييم أكثر دقة لتطبيق الذكاء الاصطناعي في مجال تطوير البرمجيات، والتي من المتوقع أن تعزز مواصلة تطوير وتطبيق التقنيات ذات الصلة.
مع تزايد استخدام تقنية الذكاء الاصطناعي في هندسة البرمجيات، ستلعب معايير التقييم مثل SWE-bench Verified دورًا مهمًا في قياس وتعزيز تحسين قدرات نموذج الذكاء الاصطناعي.
العنوان: https://openai.com/index/introducing-swe-bench-verified/
يمثل إطلاق SWE-bench Verified تقدمًا في تقييم نموذج الذكاء الاصطناعي إلى مرحلة أكثر دقة وموثوقية، وسيساعد في تعزيز ابتكار وتطوير الذكاء الاصطناعي في مجال هندسة البرمجيات. يعتقد محرر Downcodes أن المزيد من معايير التقييم المماثلة ستظهر في المستقبل لتعزيز التقدم في تكنولوجيا الذكاء الاصطناعي.