Il s'agit d'un prototype de chatbot capable de répondre aux questions sur les PDF. Il utilise l'API d'OpenAI pour la modélisation du langage et LanceDB pour le stockage et la récupération de vecteurs.
Cela utilise Poetry pour la gestion des dépendances. Pour installer les dépendances :
$ poetry install
Vous devrez également créer un fichier .env
et y ajouter votre OPENAI_API_KEY
(voir .env.example
).
La commande ci-dessous exécutera le pipeline sur le répertoire papers
, qui contient quelques PDF. Il lancera ensuite un REPL où vous pourrez poser des questions sur les PDF. Vous pouvez quitter la boucle de questions-réponses en tapant « exit » ou cmd/ctrl + c.
$ poetry run python main.py --pdf_directory=papers
Notez que la base de données LanceDB est incluse dans ce référentiel, donc la création et le stockage des intégrations dans le code d'ingestion seront ignorés, sauf si vous supprimez le répertoire .lancedb
. Ceci est inclus pour faciliter l'exécution du code sans avoir à attendre que les intégrations soient générées.
J'ai écrit un bref article de blog et enregistré une vidéo de démonstration de ce projet ici.