Este es un prototipo de chatbot que puede responder preguntas sobre archivos PDF. Utiliza la API de OpenAI para el modelado de lenguajes y LanceDB para el almacenamiento y recuperación de vectores.
Esto utiliza Poetry para la gestión de dependencias. Para instalar dependencias:
$ poetry install
También deberá crear un archivo .env
y agregarle su OPENAI_API_KEY
(consulte .env.example
).
El siguiente comando ejecutará la canalización en el directorio papers
, que contiene algunos archivos PDF. Luego iniciará un REPL donde podrá hacer preguntas sobre los archivos PDF. Puede salir del ciclo de preguntas y respuestas escribiendo "salir" o cmd/ctrl + c.
$ poetry run python main.py --pdf_directory=papers
Tenga en cuenta que la base de datos LanceDB está incluida en este repositorio, por lo que se omitirá la creación y el almacenamiento de incrustaciones dentro del código de ingesta a menos que elimine el directorio .lancedb
. Esto se incluye para facilitar la ejecución del código sin tener que esperar a que se generen las incrustaciones.
Escribí una breve publicación de blog y grabé un video de demostración de este proyecto aquí.