Это прототип чат-бота, который может отвечать на вопросы о PDF-файлах. Он использует API OpenAI для языкового моделирования и LanceDB для векторного хранения и поиска.
Это использует Poetry для управления зависимостями. Чтобы установить зависимости:
$ poetry install
Вам также потребуется создать файл .env
и добавить в него свой OPENAI_API_KEY
(см. .env.example
).
Команда ниже запустит конвейер в каталоге papers
, который содержит несколько PDF-файлов. Затем запустится REPL, где вы сможете задавать вопросы о PDF-файлах. Вы можете выйти из цикла вопросов и ответов, набрав «exit» или cmd/ctrl + c.
$ poetry run python main.py --pdf_directory=papers
Обратите внимание, что база данных LanceDB включена в этот репозиторий, поэтому создание и хранение вложений в коде приема будет пропущено, если вы не удалите каталог .lancedb
. Это сделано для того, чтобы упростить запуск кода без необходимости ждать создания вложений.
Я написал краткий пост в блоге и записал здесь демо-видео этого проекта.