Dieses Projekt demonstriert verschiedene Abruftechniken für den Dokumentenabruf mit Python. Zu den implementierten Techniken gehören HyDe, Basic, Reciprocal Rank Fusion (RRF), Fusion Retrieval und Sub Query Decomposition (SQD). Das Projekt nutzt Streamlit für die Benutzeroberfläche und verschiedene Bibliotheken für die Dokumentenverarbeitung und den Abruf.
Klonen Sie das Repository:
git clone https://github.com/yourusername/yourrepository.git
cd yourrepository
Installieren Sie die erforderlichen Abhängigkeiten:
pip install -r requirements.txt
Führen Sie die Streamlit-Anwendung aus:
streamlit run app.py
Laden Sie eine PDF-Datei über die Seitenleiste hoch.
Wählen Sie in der Seitenleiste eine Abruftechnik aus.
Geben Sie eine Abfrage in das Texteingabefeld ein und sehen Sie sich die abgerufenen Dokumente an.
Der HyDe-Abruf (Hypothetical Document) generiert ein hypothetisches Dokument basierend auf der Abfrage und ruft ähnliche Dokumente ab.
Der einfache Abruf verwendet eine einfache Ähnlichkeitssuche, um Dokumente basierend auf der Abfrage abzurufen.
Reciprocal Rank Fusion (RRF) kombiniert die Ergebnisse mehrerer Abrufalgorithmen, um die Gesamtabrufleistung zu verbessern.
Fusion Retrieval kombiniert Vektorsuche und BM25-Suchergebnisse unter Verwendung einer gewichteten Summe, um die relevantesten Dokumente abzurufen.
Sub Query Decomposition (SQD) ist eine Technik, die die Abfrage in Unterabfragen zerlegt und Dokumente basierend auf den Unterabfragen abruft.
Beiträge sind willkommen! Bitte öffnen Sie ein Problem oder senden Sie eine Pull-Anfrage für Verbesserungen oder Fehlerbehebungen.
Dieses Projekt ist unter der MIT-Lizenz lizenziert. Weitere Einzelheiten finden Sie in der LICENSE
-Datei.