أصدر معهد Zhiyuan للأبحاث وTencent بشكل مشترك LongBench v2، وهي منصة اختبار قياسية لتقييم فهم النص الطويل وقدرات الاستدلال لنماذج اللغات الكبيرة (LLMs). يعمل LongBench v2 على تحسين طول النص وصعوبة التقييم بشكل كبير، بما في ذلك 503 أسئلة صعبة متعددة الاختيارات من أربعة خيارات، مما يجعل من الصعب حتى على الخبراء البشريين الحصول على دقة عالية في وقت قصير. يغطي المعيار ست فئات مهمة رئيسية ويتضمن تحسينات على منهجية التقييم لزيادة موثوقية ودقة النتائج. تهدف هذه الخطوة إلى تعزيز تقدم نماذج اللغات الكبيرة في معالجة النصوص الطويلة وتوفير أداة تقييم أكثر فعالية للأبحاث ذات الصلة.
في مؤتمر صحفي عُقد في 19 ديسمبر 2024، أعلن معهد Zhiyuan للأبحاث وTencent عن إطلاق LongBench v2، المصمم لتقييم الفهم العميق وقدرات الاستدلال لنماذج اللغات الكبيرة (LLMs) في المهام المتعددة النصية الطويلة في العالم الحقيقي. المعايير المصممة. وتهدف المنصة إلى تعزيز تقدم نماذج النصوص الطويلة في الفهم والاستدلال، وتستجيب للتحديات الحالية في تطبيق نماذج النصوص الطويلة واللغات الكبيرة.
تتضمن الميزات البارزة في LongBench v2 دعمًا لأطوال نصية أطول، تتراوح من 8 كيلو إلى 2 مليون كلمة، وتحتوي على 503 أسئلة صعبة متعددة الاختيارات من أربعة اختيارات مع صعوبة أعلى، حتى متوسط دقة الخبراء البشريين في 15 دقيقة، المعدل 53.7% فقط . بالإضافة إلى ذلك، يغطي المعيار ست فئات رئيسية للمهام، بما في ذلك الأسئلة والأجوبة ذات المستند الواحد، والأسئلة والأجوبة متعددة المستندات، والتعلم في سياق النص الطويل، وما إلى ذلك، مما يضمن نطاقًا واسعًا من سيناريوهات التطبيق.
من أجل ضمان موثوقية التقييم، تكون جميع الأسئلة في LongBench v2 في شكل أسئلة متعددة الخيارات وتخضع لعملية تعليق ومراجعة يدوية صارمة. أثناء عملية جمع البيانات، تم تعيين معلقين من أفضل الجامعات لضمان جودة الأسئلة وصعوبتها. من خلال إدخال متغيرات التحكم، يعمل LongBench v2 على تحسين خوارزمية Bradley-Terry الإحصائية الأصلية، مما يقلل من تأثير العوامل المربكة ويجعل تصنيف النماذج أكثر علمية ودقة.
ومن حيث نتائج التقييم، قام فريق البحث باختبار 10 شهادات LLM مفتوحة المصدر و 6 شهادات LLM مغلقة المصدر ووجد أن أداء النموذج قد تحسن بشكل ملحوظ بعد إدخال متغيرات التحكم. على وجه الخصوص، يؤدي نموذج GPT-4o أداءً جيدًا في مهام مثل الإجابة على الأسئلة متعددة المستندات وتعلم سياق النص الطويل بعد تقديم المزيد من خطوات الاستدلال، مما يوضح أهمية قدرات الاستدلال.
إن إطلاق LongBench v2 لا يوفر أداة جديدة لتقييم نماذج اللغة الكبيرة فحسب، بل يشير أيضًا إلى اتجاه البحث المستقبلي، مع التركيز على أهمية تحسين قدرات الفهم والاستدلال الخاصة بالنموذج. يمثل التعاون بين معهد Zhiyuan للأبحاث وTencent مزيدًا من التطوير في مجال تكنولوجيا الذكاء الاصطناعي. ومن المتوقع أن يعزز هذا الاختبار المعياري تقدم تكنولوجيا فهم النصوص الطويلة والاستدلال بها.
الصفحة الرئيسية: https://longbench2.github.io
الورقة: https://arxiv.org/abs/2412.15204
البيانات والكود: https://github.com/THUDM/LongBench
يمثل إصدار LongBench v2 مرحلة جديدة في تقييم نماذج اللغات الكبيرة، وستساعد معايير التقييم الأكثر صرامة ومحتوى الاختبار الأكثر شمولاً على تعزيز التحسين المستمر لنماذج اللغات الكبيرة في فهم النصوص الطويلة وقدرات الاستدلال. ونحن نتطلع إلى ظهور المزيد من نتائج الأبحاث المستندة إلى LongBench v2 في المستقبل لتعزيز تطوير تكنولوجيا الذكاء الاصطناعي.