RAG下载 - RAG源代码下载

RAG

其他源码

Version 0.0.17

下载

在抹布中使用pymupdf（检索仪）聊天机器人环境

该存储库包含示例，显示了如何将pymupdf用作基于抹布的聊天机器人的数据提要。

示例包括启动聊天机器人的脚本 - 在REPP模式下作为简单的CLI程序或基于浏览器的GUI。聊天机器人脚本遵循此一般结构：

提取文本：使用pymupdf从一个或多个PDF中提取文本。根据特定要求，这可能是所有文本，或者仅包含在表，目录等中的文本。通常将其实现为一个或多个由以下任何事件调用的一个或多个python函数 - 实现实际的聊天机器人功能。
索引提取的文本：索引提取的文本以有效检索。该索引将充当聊天机器人的知识库。
查询处理：当用户提出问题时，处理查询以确定响应所需的关键信息。
检索相关信息：搜索您的索引知识库，以获取与用户查询有关的最相关信息。
生成响应：使用生成模型根据检索到的信息生成响应。

安装

PYTHON python package pypi pymupdf4llm（也有一个别名pdf4llm）能够以降价格式（github兼容）将pdf页面转换为文本字符串。这包括一致且集成的视图中的标准文本以及基于表的文本- 在抹布设置中尤其重要的功能。

$ pip install -U pymupdf4llm

如果需要，此命令将自动安装pymupdf。

然后在脚本中

 import pymupdf4llm

md_text = pymupdf4llm . to_markdown ( "input.pdf" )

# now work with the markdown text, e.g. store as a UTF8-encoded file
import pathlib
pathlib . Path ( "output.md" ). write_bytes ( md_text . encode ())

也可以提供Pymupdf Document ，而不是上述文件名字符串。默认情况下，将处理PDF中的所有页面。如果需要，则可以使用参数pages=[...]提供要考虑的基于零的页码的列表。

Markdown文本创建现在还处理多列页面。

要创建小块文本（而不是为整个文档生成一个大字符串），可以使用新的（v0.0.2）选项page_chunks=True 。 .to_markdown("input.pdf", page_chunks=True)将是python词典的列表，每个页面一个。

版本0.0.2中也是图像的可选提取和矢量图形：使用参数write_images=True 。 Will将PNG图像存储在文档的文件夹中，而Markdown文本将适当地指它们。图像命名为"input.pdf-page_number-index.png" 。

文档和API

文档

API

文档支持

虽然PDF是迄今为止在全球范围内最重要的文档格式，但值得一提的是，所有示例和助手脚本都以相同的方式工作，并且在所有受支持的文件类型中都没有更改。

So for an XPS document or an eBook, simply provide the filename for instance as "input.mobi" and everything else will work as before.

About PyMuPDF

PyMuPDF adds Python bindings and abstractions to MuPDF, a lightweight PDF , XPS , and eBook viewer, renderer, and toolkit. Pymupdf和MUPDF均由Artifex Software，Inc。维护和开发。

Pymupdf的首页位于Github上。

社区

在此处加入我们的DISCORD ：#PYMUPDF。

许可证和版权

PYMUPDF可根据开源AGPL和商业许可协议获得。 If you determine you cannot meet the requirements of the AGPL , please contact Artifex for more information regarding a commercial license.

展开

附加信息