該存儲庫包含示例,顯示瞭如何將pymupdf用作基於抹布的聊天機器人的數據提要。
示例包括啟動聊天機器人的腳本 - 在REPP模式下作為簡單的CLI程序或基於瀏覽器的GUI。聊天機器人腳本遵循此一般結構:
PYTHON python package pypi pymupdf4llm(也有一個別名pdf4llm)能夠以降價格式(github兼容)將pdf頁面轉換為文本字符串。這包括一致且集成的視圖中的標准文本以及基於表的文本- 在抹佈設置中尤其重要的功能。
$ pip install -U pymupdf4llm
如果需要,此命令將自動安裝pymupdf。
然後在腳本中
import pymupdf4llm
md_text = pymupdf4llm . to_markdown ( "input.pdf" )
# now work with the markdown text, e.g. store as a UTF8-encoded file
import pathlib
pathlib . Path ( "output.md" ). write_bytes ( md_text . encode ())
也可以提供Pymupdf Document
,而不是上述文件名字符串。默認情況下,將處理PDF中的所有頁面。如果需要,則可以使用參數pages=[...]
提供要考慮的基於零的頁碼的列表。
Markdown文本創建現在還處理多列頁面。
要創建小塊文本(而不是為整個文檔生成一個大字符串),可以使用新的(v0.0.2)選項page_chunks=True
。 .to_markdown("input.pdf", page_chunks=True)
將是python詞典的列表,每個頁面一個。
版本0.0.2中也是圖像的可選提取和矢量圖形:使用參數write_images=True
。 Will將PNG圖像存儲在文檔的文件夾中,而Markdown文本將適當地指它們。圖像命名為"input.pdf-page_number-index.png"
。
文件
API
雖然PDF是迄今為止在全球範圍內最重要的文檔格式,但值得一提的是,所有示例和助手腳本都以相同的方式工作,並且在所有受支持的文件類型中都沒有更改。
因此,對於Xps文檔或電子書,只需提供文件名作為"input.mobi"
而其他所有內容都會像以前一樣工作。
Pymupdf向MUPDF,輕量級PDF , XPS和電子書查看器,渲染器和工具包添加了Python綁定和抽象。 Pymupdf和MUPDF均由Artifex Software,Inc。維護和開發。
Pymupdf的首頁位於Github上。
在此處加入我們的DISCORD :#PYMUPDF。
PYMUPDF可根據開源AGPL和商業許可協議獲得。如果確定無法滿足AGPL的要求,請聯繫Artifex,以獲取有關商業許可證的更多信息。