Dies ist ein Prototyp eines Chatbots, der Fragen zu PDFs beantworten kann. Es nutzt die API von OpenAI für die Sprachmodellierung und LanceDB für die Speicherung und den Abruf von Vektoren.
Dabei wird Poetry für das Abhängigkeitsmanagement verwendet. So installieren Sie Abhängigkeiten:
$ poetry install
Sie müssen außerdem eine .env
Datei erstellen und Ihren OPENAI_API_KEY
hinzufügen (siehe .env.example
).
Der folgende Befehl führt die Pipeline im papers
aus, das einige PDFs enthält. Anschließend wird ein REPL gestartet, in dem Sie Fragen zu den PDFs stellen können. Sie können die Q&A-Schleife verlassen, indem Sie „exit“ oder cmd/ctrl + c eingeben.
$ poetry run python main.py --pdf_directory=papers
Beachten Sie, dass die LanceDB-Datenbank in diesem Repo enthalten ist, sodass die Erstellung und Speicherung von Einbettungen innerhalb des Aufnahmecodes übersprungen wird, es sei denn, Sie löschen das .lancedb
-Verzeichnis. Dies ist enthalten, um die Ausführung des Codes zu erleichtern, ohne auf die Generierung der Einbettungen warten zu müssen.
Ich habe einen kurzen Blog-Beitrag geschrieben und hier ein Demo-Video dieses Projekts aufgenommen.