أصبحت النماذج اللغوية الآن قادرة على حل المهام التي تتطلب التعامل مع تسلسلات طويلة تتكون من مئات الآلاف من الرموز المميزة. ومع ذلك، فإنهم غالبًا ما يفشلون في المهام التي تتطلب استخدامًا متكررًا لقواعد بسيطة، حتى في تسلسلات أقصر بكثير من تلك التي شوهدت أثناء التدريب. على سبيل المثال، يمكن لطلاب LLM المتطورين العثور على عناصر مشتركة في قائمتين تحتويان على ما يصل إلى 20 عنصرًا، ولكنها تفشل عندما تحتوي القوائم على 80 عنصرًا. في هذا البحث، نقدم MLissard، وهو معيار متعدد اللغات مصمم لتقييم قدرات النماذج على معالجة وإنشاء نصوص ذات أطوال مختلفة ويقدم آلية للتحكم في تعقيد التسلسل.
يُظهر تقييمنا للنماذج مفتوحة المصدر والمملوكة انخفاضًا ثابتًا في الأداء عبر جميع النماذج واللغات مع زيادة تعقيد التسلسل. ومن المثير للدهشة أن استخدام الأمثلة في السياق بلغات أخرى غير الإنجليزية يساعد على زيادة أداء الاستقراء بشكل كبير.
في مجلد البيانات/(المهمة)/ ستجد مجموعات البيانات للتقييم باستخدام MLissard. الملفات بتنسيق .json وتقدم وصفًا موجزًا للمهمة متبوعة بأمثلة في السياق للغة الهدف. يحتوي الحقل "test_examples" على أمثلة الاختبار المكونة من الإدخال والهدف والطول (len) والحاوية التي تنتمي إلى هذا الطول.
في النتائج/(المهمة)/GPT-4/ من الممكن العثور على الإجابات التي تم إنشاؤها بواسطة نماذج GPT-4 وLlama-3 بالإضافة إلى اختبارات الاستئصال، ويتم فصل المجلدات حسب المهام.
يحتوي المجلد src/(task)/ على ملفات .py لإنشاء أمثلة جديدة أو توسيع MLissard. للتنفيذ: python <task_name>.py --output_path=my_output_path