للتواصل عبر سلاك:
PISA هو محرك بحث نصي قادر على العمل على مجموعات واسعة النطاق من المستندات. فهو يتيح للباحثين تجربة أحدث التقنيات، مما يتيح بيئة مثالية للتطور السريع.
بعض ميزات PISA مذكورة أدناه:
PISA هو محرك بحث عن النصوص، على الرغم من أن "مشروع PISA" عبارة عن مجموعة من الأدوات التي تساعد في تجربة الفهرسة ومعالجة الاستعلامات. بالنظر إلى مجموعة نصية، يمكن لبرنامج PISA إنشاء فهرس مقلوب فوق هذه المجموعة النصية، مما يسمح بالبحث في هذه المجموعة. الفهرس المقلوب، ببساطة، هو بنية بيانات فعالة تمثل مجموعة المستندات عن طريق تخزين قائمة المستندات لكل مصطلح فريد (انظر هنا). وفي وقت الاستعلام، يقوم PISA بتخزين فهرسه في الذاكرة الرئيسية لاسترجاعه بسرعة.
بعبارات بسيطة جدًا، PISA هو محرك بحث نصي. بدءًا من مجموعة من المستندات، على سبيل المثال، ويكيبيديا، يمكن لبرنامج PISA إنشاء فهرس مقلوب يسمح لنا بالبحث بسرعة في مجموعة ويكيبيديا. على المستوى الأساسي، يتم دعم الاستعلامات المنطقية AND
و OR
. تخيل أننا أردنا العثور على جميع مستندات ويكيبيديا التي تطابق الاستعلام "شاي أولونج" - يمكننا تشغيل أداة ربط منطقية ( أولونج AND
) . قد نكون مهتمين بدلاً من ذلك بالعثور على مستندات تحتوي إما على أولونج أو شاي (أو كليهما)، وفي هذه الحالة يمكننا تشغيل الفصل المنطقي ( أولونج OR
شاي ).
بعيدًا عن المطابقة المنطقية البسيطة، كما تمت مناقشته أعلاه، يمكننا بالفعل ترتيب المستندات. دون الخوض في التفاصيل، يتم ترتيب المستندات حسب الوظائف التي تفترض أنه كلما كان المصطلح أكثر ندرة ، زادت أهمية الكلمة. ويفترض هؤلاء المصنفون أيضًا أنه كلما زاد عدد مرات ظهور الكلمة في المستند، زاد احتمال أن يكون المستند حول تلك الكلمة. وأخيرًا، تحتوي المستندات الأطول على عدد أكبر من الكلمات، وبالتالي من المرجح أن تحصل على درجات أعلى من المستندات الأقصر، لذلك يتم إجراء التسوية لضمان التعامل مع جميع المستندات على قدم المساواة. قد يرغب القارئ المهتم في الاطلاع على مقالة ويكيبيديا TF/IDF لمعرفة المزيد حول طريقة التصنيف هذه.
هذا ليس نفس نوع البحث grep
على سبيل المثال. ويرتبط هذا بشكل وثيق بمحرك بحث Lucene الشهير، على الرغم من أننا لا ندعم حاليًا العديد من أنواع الاستعلام مثل Lucene. كما تمت مناقشته سابقًا، فإن بنية البيانات الأساسية الرئيسية في PISA هي المؤشر المقلوب . يخزن الفهرس المقلوب، لكل مصطلح، قائمة بالمستندات التي تحتوي على هذا المصطلح. يمكن اجتياز هذه القوائم بسرعة للعثور على المستندات التي تطابق مصطلحات الاستعلام، ويمكن بعد ذلك تسجيل هذه المستندات وتصنيفها وإعادتها إلى المستخدم.
حالة الاستخدام الأساسية لبرنامج PISA هي إجراء تجارب لتعزيز فهم مجال استرجاع المعلومات (IR). في مجال علاقات المستثمرين، هناك العديد من الاتجاهات البحثية المهمة التي يتم التركيز عليها، بدءًا من تحسين جودة النتائج (الفعالية)، وحتى تحسين قابلية التوسع وكفاءة أنظمة البحث. يركز PISA في الغالب على جانب قابلية التوسع والكفاءة في أبحاث العلاقات الدولية، ولهذا السبب يرمز PISA إلى "مؤشرات الأداء والبحث عن الأوساط الأكاديمية". باختصار، يعد البرنامج الدولي لتقييم الطلاب (PISA) بمثابة منصة لتطوير ابتكارات جديدة في مجال البحث الفعال.
في حين أن برنامج PISA يركز على كونه قاعدة للتجريب، فهو أيضًا مناسب تمامًا للاستخدام كنظام فهرسة وبحث بسيط للأغراض العامة.
يمكن لبرنامج PISA التعامل مع مجموعات نصية كبيرة. على سبيل المثال، يمكن لبرنامج PISA فهرسة مجموعة ClueWeb09B أو ClueWeb12B بسهولة، والتي تحتوي كل منها على أكثر من 50 مليون مستند ويب وما يقرب من 500 جيجا بايت من البيانات النصية المضغوطة ، مما يؤدي إلى فهارس تتراوح بين 10 إلى 40 جيجا بايت، اعتمادًا على برنامج ترميز الضغط. مستخدم. يمكن بناء هذه الفهارس، اعتمادًا على بعض التفاصيل، من الصفر في حوالي 10 إلى 20 ساعة. بالإضافة إلى ذلك، يمكن التعامل مع المجموعات الأكبر حجمًا من خلال تقسيم الفهرس الذي يقسم المجموعات الكبيرة إلى مجموعات فرعية أصغر (أجزاء). ومع ذلك، نلاحظ أن PISA هو نظام داخل الذاكرة ، يهدف إلى خدمة الاستعلامات بناءً على فهرس موجود بالكامل في الذاكرة الرئيسية. على هذا النحو، سيكون المقياس المحتمل محدودًا بالذاكرة الرئيسية.
قامت بعض الأعمال الحديثة بقياس PISA. على سبيل المثال، أظهرت دراسة تجريبية لضغط الفهرس وطرق معالجة استعلام DAAT أجراها أنطونيو ماليا وميكال سيدلاكزيك وتورستن سويل، والتي ظهرت في ECIR 2019، أن برنامج PISA قادر على إرجاع أفضل 10 وأفضل 1000 مستند بمتوسط زمن الوصول في نطاق 10-40 و20-50 مللي ثانية على التوالي، على مجموعة تحتوي على 50 مليون شبكة وثائق.
تم تضمين PISA أيضًا في اللعبة المعيارية لمحرك البحث Tantivy، والتي تضم أيضًا Tantivy وLucene وRucene كمنافسين.
PISA هو شوكة لمشروع ds2i الذي بدأه جوزيبي أوتافيانو. يحتوي مشروع ds2i على الكود المصدري لعدد من ابتكارات الكفاءة المهمة في مجال الأشعة تحت الحمراء، بما في ذلك طريقة الضغط "Partitioned Elias-Fano".
للراغبين في العمل مع PISA، نقترح دراسة الموارد التالية:
إذا كنت ترغب في المشاركة في PISA، يرجى مراجعة صفحة المساهمة الخاصة بنا.
إذا كنت تستخدم PISA في ورقة بحثية، فيرجى ذكر المرجع التالي:
@inproceedings{MSMS2019,
author = {Antonio Mallia and Michal Siedlaczek and Joel Mackenzie and Torsten Suel},
title = {{PISA:} Performant Indexes and Search for Academia},
booktitle = {Proceedings of the Open-Source {IR} Replicability Challenge co-located
with 42nd International {ACM} {SIGIR} Conference on Research and Development
in Information Retrieval, OSIRRC@SIGIR 2019, Paris, France, July 25,
2019.},
pages = {50--56},
year = {2019},
url = {http://ceur-ws.org/Vol-2409/docker08.pdf}
}