Das verwendete Modell ist „BAAI/bge-base-en-v1.5“ von Hugging Face
Um Qdrant in einem Docker-Container auszuführen, gehen Sie folgendermaßen vor:
Rufen Sie das Qdrant-Docker-Image ab:
docker pull qdrant/qdrant
Führen Sie den Qdrant-Container aus:
docker run -p 6333:6333 qdrant/qdrant
Stellen Sie vor dem Ausführen von Skripts sicher, dass alle erforderlichen Python-Bibliotheken installiert sind:
pip install -r requirements.txt
Das Skript „ingest.py“ verarbeitet das PDF-Dokument „insurance_Handbook.pdf“, generiert Vektoreinbettungen aus dem Text und speichert diese Einbettungen in der Qdrant-Vektordatenbank.
So funktioniert es: PDF laden: Liest den Inhalt der angegebenen PDF-Datei. Text aufteilen: Teilt den Text in überschaubare Abschnitte auf, um Einbettungen zu generieren. Jeder Abschnitt kann sich leicht überlappen, um den Kontext zu bewahren. Einbettungen generieren: Wandelt jeden Textblock mithilfe eines vorab trainierten Modells in eine Vektoreinbettung um. In Qdrant speichern: Speichert die generierten Einbettungen und den entsprechenden Text in der Qdrant-Vektordatenbank. Verwendung: Führen Sie den folgenden Befehl aus, um Daten in Qdrant zu verarbeiten und aufzunehmen:
python ingest.py
Das app.py-Skript wird verwendet, um die Qdrant-Vektordatenbank abzufragen, um Dokumente basierend auf einer vom Benutzer bereitgestellten Abfrage abzurufen.
So funktioniert es: Einbetten der Abfrage: Konvertiert die Eingabeabfrage in eine Vektoreinbettung unter Verwendung desselben Modells, das für Dokumenteinbettungen verwendet wird. Ähnlichkeitssuche: Vergleicht die Abfrageeinbettung mit den in Qdrant gespeicherten Einbettungen, um die ähnlichsten Dokumente zu finden. Zurückgeben von Ergebnissen: Ruft die am besten übereinstimmenden Dokumente basierend auf den Ähnlichkeitswerten ab und zeigt sie an. Verwendung: Führen Sie den folgenden Befehl aus, um die Abfrage zu starten:
python app.py
Stellen Sie sicher, dass der Qdrant-Container ausgeführt wird und die Daten mithilfe des Skripts „ingest.py“ erfasst wurden.