سيأخذك محرر Downcodes إلى فهم أحدث نتائج الأبحاث الخاصة بـ OpenAI: اختبار MLE-bench Bench! يهدف هذا البحث إلى تقييم القدرات الفعلية لوكلاء الذكاء الاصطناعي في مجال هندسة التعلم الآلي. اختار فريق البحث 75 مسابقة للتعلم الآلي من Kaggle كسيناريوهات اختبار، تغطي العديد من الجوانب مثل التدريب النموذجي، وإعداد البيانات، والتشغيل التجريبي، واستخدم بيانات التصنيف العام من Kaggle كمعيار بشري للمقارنة. ومن خلال اختبار مجموعة متنوعة من نماذج اللغات المتطورة، اكتسب فريق البحث خبرة قيمة وقام بفتح الكود المعياري لتسهيل البحث اللاحق.
في دراسة حديثة، أطلق فريق بحث OpenAI معيارًا جديدًا يسمى MLE-bench، والذي تم تصميمه لتقييم أداء وكلاء الذكاء الاصطناعي في هندسة التعلم الآلي.
تركز هذه الدراسة بشكل خاص على 75 مسابقة متعلقة بهندسة التعلم الآلي من Kaggle، والتي تم تصميمها لاختبار مجموعة متنوعة من المهارات التي يطلبها الوكلاء في العالم الحقيقي، بما في ذلك التدريب على النماذج، وإعداد مجموعة البيانات، وإجراء التجارب.
ومن أجل تقييم أفضل، استخدم فريق البحث البيانات الأساسية من تصنيفات Kaggle العامة لوضع معايير بشرية لكل مسابقة. في التجربة، استخدموا بنية الوكيل مفتوح المصدر لاختبار العديد من نماذج اللغات المتطورة. تظهر النتائج أن التكوين الأفضل أداءً - معاينة OpenAI's o1 جنبًا إلى جنب مع بنية AIDE - حقق مستويات الميدالية البرونزية لـ Kaggle في 16.9% من المسابقات.
ليس هذا فحسب، فقد أجرى فريق البحث أيضًا مناقشات متعمقة حول نموذج توسيع الموارد لعملاء الذكاء الاصطناعي ودرس التأثير الضار للتدريب المسبق على النتائج. وأكدوا أن نتائج البحث هذه توفر أساسًا لمزيد من الفهم لقدرات وكلاء الذكاء الاصطناعي في هندسة التعلم الآلي في المستقبل. لتسهيل البحث المستقبلي، قام الفريق أيضًا بجعل الكود المعياري مفتوح المصدر ليستخدمه الباحثون الآخرون.
ويمثل إطلاق هذا البحث تقدمًا مهمًا في مجال التعلم الآلي، خاصة في كيفية تقييم وتحسين القدرات الهندسية لوكلاء الذكاء الاصطناعي. ويأمل العلماء أن يوفر MLE-bench المزيد من معايير التقييم العلمية والأساس العملي لتطوير تكنولوجيا الذكاء الاصطناعي.
مدخل المشروع: https://openai.com/index/mle-bench/
تسليط الضوء على:
يعد MLE-bench معيارًا جديدًا مصممًا لتقييم قدرات هندسة التعلم الآلي لعملاء الذكاء الاصطناعي.
يغطي البحث 75 مسابقة Kaggle، لاختبار نموذج تدريب الوكيل وقدرات معالجة البيانات.
?وصلت تركيبة o1-preview وAIDE من OpenAI إلى مستوى Kaggle البرونزي في 16.9% من المسابقات.
يوفر المصدر المفتوح لمعيار MLE-bench معيارًا جديدًا لتقييم وكلاء الذكاء الاصطناعي في مجال هندسة التعلم الآلي، ويساهم أيضًا في تطوير تكنولوجيا الذكاء الاصطناعي. يتطلع محرر Downcodes إلى المزيد من نتائج الأبحاث المستندة إلى MLE-bench في المستقبل!