Este é um protótipo de chatbot que pode responder perguntas sobre PDFs. Ele usa API OpenAI para modelagem de linguagem e LanceDB para armazenamento e recuperação de vetores.
Isso usa Poesia para gerenciamento de dependências. Para instalar dependências:
$ poetry install
Você também precisará criar um arquivo .env
e adicionar seu OPENAI_API_KEY
a ele (consulte .env.example
).
O comando abaixo executará o pipeline no diretório papers
, que contém alguns PDFs. Em seguida, será iniciado um REPL onde você poderá fazer perguntas sobre os PDFs. Você pode sair do ciclo de perguntas e respostas digitando "exit" ou cmd/ctrl + c.
$ poetry run python main.py --pdf_directory=papers
Observe que o banco de dados LanceDB está incluído neste repositório, portanto, a criação e o armazenamento de embeddings no código de ingestão serão ignorados, a menos que você exclua o diretório .lancedb
. Isso foi incluído para facilitar a execução do código sem ter que esperar a geração dos embeddings.
Escrevi uma breve postagem no blog e gravei um vídeo de demonstração deste projeto aqui.