مقيم التصنيف المقدر
إن مُقيِّم التصنيف المُقدَّر (RRE) عبارة عن أداة لتقييم جودة البحث، والتي، كما يوحي الاسم، تقوم بتقييم جودة النتائج القادمة من البنية التحتية للبحث.
روابط
- تقييم جودة البحث: منظور المطور
- RRE في Haystack EU، لندن، 2018
- RRE في Fosdem 2019
- مُقيِّم التصنيف المُقيَّم (RRE) اختبار الملاءمة العملي @Chorus، 2021
- مؤسسة تقييم التصنيف: الجيل التالي من أدوات تقييم جودة البحث المجانية، بادوفا، 2021
- ويكي المشروع، الموجود على https://github.com/SeaseLtd/rated-ranking-evaluator/wiki
- القائمة البريدية لمستخدم RRE: https://groups.google.com/g/rre-user
في الوقت الحالي، يتم دعم Apache Solr وElasticsearch (راجع الوثائق الخاصة بالإصدارات المدعومة).
توضح الصورة التالية النظام البيئي RRE:
كما ترون، هناك الكثير من الوحدات الموجودة بالفعل والمخطط لها (تلك ذات الحدود المتقطعة)
- النواة ، وهي المكتبة المركزية المسؤولة عن إنتاج نتائج التقييم
- واجهة برمجة تطبيقات منصة البحث : لاستخلاص (وربط) منصة البحث الأساسية
- مجموعة من روابط منصة البحث : كما ذكرنا سابقًا، لدينا حاليًا رابطان متاحان (Apache Solr وElasticsearch)
- مكون إضافي لـ Apache Maven لكل ربط منصة بحث متاح: والذي يسمح بإدخال RRE في نظام بناء قائم على Maven
- مكون إضافي لإعداد تقارير Apache Maven : لإنتاج تقارير التقييم بتنسيق يمكن قراءته بواسطة الإنسان (مثل PDF وexcel)، وهو مفيد لاستهداف المستخدمين غير التقنيين
- خادم RRE : لوحة تحكم بسيطة على شبكة الإنترنت حيث يتم تحديث نتائج التقييم في الوقت الفعلي بعد كل دورة بناء.
تم بناء النظام بأكمله كإطار يمكن من خلاله تكوين/تنشيط المقاييس وحتى توصيلها (بالطبع، يتطلب هذا الخيار بعض التطوير) المقاييس التي تعد جزءًا من إصدار RRE الحالي هي:
- الدقة : جزء من المستندات المستردة ذات الصلة.
- الاستدعاء : جزء من المستندات ذات الصلة التي تم استرجاعها.
- الدقة عند 1 : يشير هذا المقياس إلى ما إذا كانت النتيجة الأولى في القائمة ذات صلة أم لا.
- الدقة عند 2 : نفس ما ورد أعلاه ولكنها تأخذ في الاعتبار النتيجتين الأوليين.
- الدقة عند 3 : نفس ما ورد أعلاه ولكنها تأخذ في الاعتبار النتائج الثلاثة الأولى.
- الدقة عند 10 : يقيس هذا المقياس عدد النتائج ذات الصلة في أفضل 10 نتائج بحث.
- المرتبة التبادلية : هي المعكوس الضربي لرتبة الإجابة الأولى "الصحيحة": 1 للمركز الأول، 1/2 للمركز الثاني، 1/3 للثالث وهكذا.
- الرتبة المتبادلة المتوقعة (ERR) امتداد للرتبة المتبادلة ذات الصلة المتدرجة، يقيس الطول المتبادل المتوقع من الوقت الذي سيستغرقه المستخدم للعثور على مستند ذي صلة.
- متوسط الدقة : المنطقة الواقعة تحت منحنى استرجاع الدقة.
- NDCG عند 10 : المكاسب التراكمية المخصومة عند 10؛ انظر: https://en.wikipedia.org/w/index.php?title=Discounted_cumulative_gain§ion=4#Normalized_DCG
- F-Measure : يقيس فعالية الاسترجاع فيما يتعلق بالمستخدم الذي يعلق أهمية أكبر على التذكر بقدر الدقة. يوفر RRE مثيلات F-Measure الثلاثة الأكثر شيوعًا: F0.5 وF1 وF2
علاوة على تلك المقاييس "الورقية"، التي يتم حسابها على مستوى الاستعلام، يوفر RRE نموذج بيانات متداخل غني، حيث يمكن تجميع نفس المقياس على عدة مستويات. على سبيل المثال، يتم تجميع الاستعلامات في مجموعات الاستعلام ويتم تجميع مجموعات الاستعلام في المواضيع. وهذا يعني أن نفس المقاييس المذكورة أعلاه متاحة أيضًا في المستويات العليا باستخدام المتوسط الحسابي كمعايير تجميع. ونتيجة لذلك، يوفر RRE أيضًا المقاييس التالية:
- متوسط متوسط الدقة : متوسط متوسط الدقة المحسوبة على مستوى الاستعلام.
- متوسط الرتبة المتبادلة : متوسط الرتب المتبادلة المحسوبة على مستوى الاستعلام.
- يتم تجميع جميع المقاييس الأخرى المذكورة أعلاه حسب متوسطها الحسابي.
أحد أهم الأشياء التي يمكنك رؤيتها في لقطة الشاشة أعلاه هو أن RRE قادر على تتبع (وإجراء مقارنات) بين عدة إصدارات من النظام قيد التقييم.
إنه يشجع على اتباع نهج تزايدي/تكراري/غير قابل للتغيير عند تطوير نظام بحث وتطويره: بافتراض أنك تبدأ من الإصدار 1.0، عند تطبيق بعض التغييرات ذات الصلة على التكوين الخاص بك، بدلاً من تغيير هذا الإصدار، من الأفضل استنساخه وتطبيق تغييرات على الإصدار الجديد (دعنا نسميها 1.1).
بهذه الطريقة، عندما يتم إنشاء النظام، سيقوم RRE بحساب كل شيء تم شرحه أعلاه (أي المقاييس) لكل إصدار متاح.
بالإضافة إلى ذلك، فإنه سيوفر الدلتا/الاتجاه بين الإصدارات اللاحقة، حتى تتمكن على الفور من الحصول على الاتجاه العام الذي يتجه إليه النظام، من حيث التحسينات ذات الصلة.