أصدر فريق ByteDance Doubao Big Model معيارًا جديدًا لتقييم النموذج الكبير للكود - FullStack Bench. يغطي هذا المعيار 11 سيناريوهات واقعية و16 لغة برمجة و3374 سؤالًا، مقارنة بمعايير التقييم السابقة، ويمكن لـ FullStack Bench تقديم أداء أفضل وأكثر شمولاً تقييم دقيق لقدرات تطوير التعليمات البرمجية للنماذج الكبيرة. يقوم بفحص البيانات من Stack Overflow ويتم التحقق من صحتها بواسطة الذكاء الاصطناعي والبشر لضمان موثوقية البيانات واتساع نطاقها. في الوقت نفسه، قام الفريق أيضًا بفتح المصدر لأداة SandboxFusion الخاصة بوضع التعليمات البرمجية لتسهيل قيام المطورين بإجراء اختبار نماذج كبيرة.
في 5 ديسمبر، أطلق فريق Byte Doubao للنماذج الكبيرة أحدث معيار لتقييم نموذج التعليمات البرمجية الكبيرة - FullStack Bench، والذي يغطي أكثر من 11 نوعًا من السيناريوهات الحقيقية، ويدعم 16 لغة برمجة، ويحتوي على 3374 سؤالًا. يمكن لهذا المعيار أن يقيم بشكل أكثر دقة قدرات تطوير التعليمات البرمجية للنماذج الكبيرة في نطاق أوسع من مجالات البرمجة مقارنة بمعايير التقييم السابقة، ويعزز تحسين النماذج في مهام البرمجة في العالم الحقيقي.
تركز معايير تقييم الكود السائدة حاليًا، مثل HumanEval وMBPP، عادةً على مشكلات البرمجة الأساسية والمتقدمة، بينما يركز DS-1000 على تحليل البيانات ومهام التعلم الآلي، ويدعم Python فقط. يركز xCodeEval على البرمجة والرياضيات المتقدمة، وله سيناريوهات تطبيق كبيرة وقيود على تغطية اللغة. في المقابل، قام FullStack Bench بتعزيز تغطية البيانات بشكل كبير، حيث يغطي أكثر من 11 مجال تطبيق ويغطي سيناريوهات البرمجة الأكثر تعقيدًا وتنوعًا.
تأتي مجموعة بيانات FullStack Bench من Stack Overflow، أكبر منصة أسئلة وأجوبة للبرمجة في العالم. وقد اختار فريق البحث أفضل 88.1% من مجالات التطبيق من بين 500000 سؤال، مما يضمن اتساع مجموعة البيانات وقوتها. يتضمن كل سؤال وصفًا تفصيليًا للمشكلة وحلولًا مرجعية وحالات اختبار الوحدة لضمان دقة التقييم. أجرى الفريق أيضًا تقييمًا شاملاً لجودة البيانات من خلال الذكاء الاصطناعي والمراجعة اليدوية لتحسين موثوقية البيانات.
من أجل تسهيل استخدام المطورين لمجموعة البيانات هذه، قام فريق Byte Doubao أيضًا بفتح مصدر أداة Sandbox Sandbox لدعم التنفيذ الفعال لمهام البرمجة متعددة اللغات. يتوافق SandboxFusion مع أكثر من 10 مجموعات بيانات لتقييم التعليمات البرمجية مستخدمة على نطاق واسع ويدعم 23 لغة برمجة، مما يساعد المطورين على اختبار النماذج الكبيرة بسهولة في بيئات مختلفة.
بالإضافة إلى ذلك، قام فريق Byte Doubao للنماذج الكبيرة أيضًا بعرض نموذج الأكواد الكبيرة الذي تم تطويره ذاتيًا - Doubao-Coder لأول مرة، وقام بتقييم قدرات البرمجة لأكثر من 20 نموذجًا للأكواد الكبيرة حول العالم. إن تقدم بايت المستمر في مجال برمجة الذكاء الاصطناعي، خاصة من خلال نموذج قاعدة التعليمات البرمجية المطور ذاتيًا MarsCode، يساهم بملايين الأكواد للمستخدمين كل شهر، مما يدل على مكانتها الرائدة في هذا المجال.
عنوان مجموعة البيانات مفتوح المصدر: https://huggingface.co/datasets/ByteDance/FullStackBench
عنوان Sandbox مفتوح المصدر: https://github.com/bytedance/SandboxFusion
عنوان الورقة: https://arxiv.org/pdf/2412.00535v2
يمثل إصدار FullStack Bench والمصدر المفتوح للأدوات ذات الصلة التقدم الكبير الذي حققته ByteDance في مجال كود الذكاء الاصطناعي وقد قدم مساهمات مهمة في تعزيز تقييم وتطوير نماذج الأكواد الكبيرة. يمكن للمطورين استخدام هذه الموارد لتحسين أداء نماذجهم الخاصة بشكل أفضل وتعزيز تقدم تقنية كود الذكاء الاصطناعي.