该存储库包含示例,显示了如何将pymupdf用作基于抹布的聊天机器人的数据提要。
示例包括启动聊天机器人的脚本 - 在REPP模式下作为简单的CLI程序或基于浏览器的GUI。聊天机器人脚本遵循此一般结构:
PYTHON python package pypi pymupdf4llm(也有一个别名pdf4llm)能够以降价格式(github兼容)将pdf页面转换为文本字符串。这包括一致且集成的视图中的标准文本以及基于表的文本- 在抹布设置中尤其重要的功能。
$ pip install -U pymupdf4llm
如果需要,此命令将自动安装pymupdf。
然后在脚本中
import pymupdf4llm
md_text = pymupdf4llm . to_markdown ( "input.pdf" )
# now work with the markdown text, e.g. store as a UTF8-encoded file
import pathlib
pathlib . Path ( "output.md" ). write_bytes ( md_text . encode ())
也可以提供Pymupdf Document
,而不是上述文件名字符串。默认情况下,将处理PDF中的所有页面。如果需要,则可以使用参数pages=[...]
提供要考虑的基于零的页码的列表。
Markdown文本创建现在还处理多列页面。
要创建小块文本(而不是为整个文档生成一个大字符串),可以使用新的(v0.0.2)选项page_chunks=True
。 .to_markdown("input.pdf", page_chunks=True)
将是python词典的列表,每个页面一个。
版本0.0.2中也是图像的可选提取和矢量图形:使用参数write_images=True
。 Will将PNG图像存储在文档的文件夹中,而Markdown文本将适当地指它们。图像命名为"input.pdf-page_number-index.png"
。
文档
API
虽然PDF是迄今为止在全球范围内最重要的文档格式,但值得一提的是,所有示例和助手脚本都以相同的方式工作,并且在所有受支持的文件类型中都没有更改。
So for an XPS document or an eBook, simply provide the filename for instance as "input.mobi"
and everything else will work as before.
PyMuPDF adds Python bindings and abstractions to MuPDF, a lightweight PDF , XPS , and eBook viewer, renderer, and toolkit. Pymupdf和MUPDF均由Artifex Software,Inc。维护和开发。
Pymupdf的首页位于Github上。
在此处加入我们的DISCORD :#PYMUPDF。
PYMUPDF可根据开源AGPL和商业许可协议获得。 If you determine you cannot meet the requirements of the AGPL , please contact Artifex for more information regarding a commercial license.