التنفيذ السريع لـ BM25 في بايثون.
BM25 هي وظيفة تصنيف بسيطة وسريعة لمحركات البحث التي تعمل على الكلمات (الرموز المميزة).
إنه لا يتناسب بشكل جيد مع الأخطاء الإملائية، لذا استخدمه فقط في السياقات التي لا يمثل فيها ذلك مشكلة.
تطبيق BM25 الأساسي هو من dorianbrown/rank_bm25.
قم بتهيئة BM25 عن طريق تمرير مجموعة نصية عليه، والمعروفة أيضًا باسم مكرر على المستندات المميزة (قائمة السلاسل).
from fast_bm25 import BM25
# Load your corpus
corpus = ...
bm25 = new BM25 ( corpus )
results = bm25 . get_top_n ([ "largest" , "city" , "in" , "Japan" ], corpus );
إنها ليست حزمة بايثون، انسخ الملف إذا كنت تريد استخدامه
في مجموعة النص، غالبًا ما تكون الكلمات الأكثر شيوعًا (the، a، an، ...) هي الأقل إفادة.
ومن خلال عزلهم عن الاستعلام والبحث فقط في المستندات التي تحتوي على كلمة واحدة على الأقل من الاستعلام، يكتسب BM25 الكثير من السرعة بينما يفقد القليل جدًا من الدقة.
يتم التحكم في هذه المقايضة بواسطة المعلمة alpha
: ألفا أعلى => سرعة أكبر ومزيد من قطع الكلمات.
في