يحتوي هذا المستودع على رمز التقييم لمعايير استرجاع المعلومات البولندية (PIRB). يغطي المعيار 41 مهام استرجاع المعلومات المتعددة البولندية. الغرض منه هو تقييم طرق استرجاع المعلومات البولندية والمتعددة اللغات على مجموعة واسعة من المشكلات ذات الخصائص المختلفة ، وبالتالي اختبار قدرة تعميم النماذج وأدائها صفري. ويشمل مجموعات بيانات موجودة مسبقًا مثل Maupqa و Beir-Pl و Poleval-2022. لقد أضفنا أيضًا مجموعات بيانات جديدة غير منشورة. تحتوي مجموعة "مجموعات بيانات الويب" على أسئلة وأجوبة حقيقية من خدمات الويب البولندية.
لتقييم نموذج أو قائمة من النماذج على PIRB ، استخدم البرنامج النصي run_benchmark.py
. المعلمة المطلوبة الوحيدة للبرنامج النصي هي --models_config
، والتي يجب أن تشير إلى ملف JSON الذي يحتوي على تكوين النماذج. يدعم المستودع العديد من طرق استرجاع النص ، بما في ذلك المسترجعين المتناثرين والكثيف ، واسترجاع الهجين ، بالإضافة إلى خطوط أنابيب استرجاع على مرحلتين تجمع بين نماذج Retriever و Reranker. يجب أن يكون ملف التكوين عبارة عن صفيف JSON يحدد فيه كل عنصر طريقة واحدة ليتم تقييمها. على سبيل المثال ، فيما يلي أبسط تكوين يحدد خط الأساس BM25:
[{ "name" : " bm25 " }]
يمكن تعريف المشفرات الكثيفة القائمة على مكتبة محولات الجملة بالطريقة التالية:
[
{
"name" : " sdadas/mmlw-e5-base " ,
"fp16" : true ,
"q_prefix" : " query: " ,
"p_prefix" : " passage: "
}
]
يجب أن تشير سمة name
إلى مسار أو مسار محلي على مركز Huggingface. سمات أخرى اختيارية ، وتسمح للتحكم في سلوك النموذج. الأساليب التي تجمع بين نماذج متعددة تتطلب تكوين أكثر تعقيدًا. فيما يلي مثال على نظام استرجاع مرحلتين مع Retriever كثيف و Reranker المستند إلى T5:
[
{
"name" : " plt5-large-msmarco " ,
"type" : " hybrid " ,
"k0" : 100 ,
"strategy" : {
"type" : " reranker " ,
"reranker_name" : " clarin-knext/plt5-large-msmarco " ,
"reranker_type" : " seq2seq " ,
"batch_size" : 32 ,
"max_seq_length" : 512 ,
"template" : " Query: {query} Document: {passage} Relevant: " ,
"yes_token" : " prawda " ,
"no_token" : " fałsz " ,
"bf16" : true
},
"models" : [
{
"name" : " sdadas/mmlw-retrieval-roberta-large " ,
"fp16" : true ,
"q_prefix" : " zapytanie: "
}
]
}
]
يمكن العثور على المزيد من أمثلة تعريفات الطريقة في دليل config
في هذا المستودع.
معظم البيانات المستخدمة في التقييم متاحة للجمهور. سيتم تنزيل مجموعات البيانات تلقائيًا عند العرض الأول من البرنامج النصي run_benchmark.py
. الاستثناء الوحيد هو Corpora من مجموعة "مجموعات بيانات الويب". إذا كنت ترغب في الوصول إليها ، فيرجى إرسال طلب إلى SDADAs على OPI.org.pl ، واصفًا استخدامك المقصود لمجموعات البيانات. يرجى ملاحظة أنه لا يمكن استخدام مجموعات البيانات إلا لأغراض البحث ونطلب عدم إعادة توزيعها بعد الحصول على الوصول.
إذا كان لديك نموذج لم يتم تضمينه في الترتيب حتى الآن ، فتح مشكلة جديدة على https://huggingface.co/spaces/sdadas/pirb/discussions مع وصف لنموذجك. سنحاول تقييمه وإضافته إلى لوحة المتصدرين. في الوصف ، يمكنك تضمين تكوين JSON للنموذج بتنسيق PIRB أو جزء رمز قصير يوضح استخدام النموذج. في التقييم الرسمي ، نحن نعتبر فقط النماذج التي:
1. متوفرة للجمهور
2. لم يتم تدريب على مصادر البيانات المدرجة في PIRB. بالنسبة لمجموعات البيانات المقسمة إلى أجزاء القطار والتقييم والاختبار ، يكون استخدام تقسيم التدريب مقبولًا.