scratch pdf bot
1.0.0
这是一个可以回答有关 PDF 问题的聊天机器人原型。它使用 OpenAI 的 API 进行语言建模,并使用 LanceDB 进行向量存储和检索。
这使用 Poetry 进行依赖管理。要安装依赖项:
$ poetry install
您还需要创建一个.env
文件并向其中添加OPENAI_API_KEY
(请参阅.env.example
)。
下面的命令将在包含一些 PDF 的papers
目录上运行管道。然后它将启动 REPL,您可以在其中询问有关 PDF 的问题。您可以通过键入“exit”或 cmd/ctrl + c 退出问答循环。
$ poetry run python main.py --pdf_directory=papers
请注意,LanceDB 数据库包含在此存储库中,因此除非删除.lancedb
目录,否则将跳过摄取代码中嵌入的创建和存储。包含此内容是为了更轻松地运行代码,而无需等待生成嵌入。
我写了一篇简短的博客文章并在这里录制了该项目的演示视频。