يوضح هذا المشروع تقنيات استرجاع مختلفة لاسترجاع المستندات باستخدام بايثون. تشمل التقنيات المطبقة HyDe، وBasic، وReciprocal Rank Fusion (RRF)، وFusion Retrieval، وSub Query Decomposition (SQD). يستخدم المشروع Streamlit لواجهة المستخدم والمكتبات المختلفة لمعالجة المستندات واسترجاعها.
استنساخ المستودع:
git clone https://github.com/yourusername/yourrepository.git
cd yourrepository
تثبيت التبعيات المطلوبة:
pip install -r requirements.txt
قم بتشغيل تطبيق Streamlit:
streamlit run app.py
قم بتحميل ملف PDF باستخدام الشريط الجانبي.
حدد تقنية الاسترجاع من الشريط الجانبي.
أدخل استعلامًا في مربع إدخال النص واعرض المستندات المستردة.
يقوم استرجاع HyDe (المستند الافتراضي) بإنشاء مستند افتراضي بناءً على الاستعلام ويقوم باسترداد المستندات المماثلة.
يستخدم الاسترجاع الأساسي بحث تشابه بسيط لاسترداد المستندات بناءً على الاستعلام.
يجمع Reciprocal Rank Fusion (RRF) نتائج خوارزميات الاسترجاع المتعددة لتحسين أداء الاسترجاع الإجمالي.
يجمع استرجاع Fusion بين البحث المتجه ونتائج بحث BM25 باستخدام مجموع مرجح لاسترداد المستندات الأكثر صلة.
تحليل الاستعلام الفرعي (SQD) هو أسلوب يقوم بتحليل الاستعلام إلى استعلامات فرعية واسترداد المستندات بناءً على الاستعلامات الفرعية.
المساهمات هي موضع ترحيب! الرجاء فتح مشكلة أو إرسال طلب سحب لأية تحسينات أو إصلاحات للأخطاء.
هذا المشروع مرخص بموجب ترخيص MIT. راجع ملف LICENSE
لمزيد من التفاصيل.