pdfminer.six
20240706
我們理解PDF
Pdfminer.6 是社群維護的原始 PDFMiner 的分支。它是一個從PDF文件中提取資訊的工具。它專注於獲取和分析文字數據。 Pdfminer.6 直接從 PDF 原始碼中提取頁面文字。它也可用於取得文字的確切位置、字體或顏色。
它以模組化方式構建,因此 pdfminer.6 的每個組件都可以輕鬆替換。您可以實作自己的解釋器或渲染設備,將 pdfminer.6 的功能用於文字分析以外的其他目的。
查看有關閱讀文件的完整文件。
安裝 Python 3.8 或更高版本。
安裝pdfminer.6。
pip install pdfminer.six
(可選)安裝額外的依賴項以提取映像。
pip install ' pdfminer.six[image] '
使用命令列介面從 pdf 中提取文字。
pdf2txt.py example.pdf
或與 Python 一起使用。
from pdfminer . high_level import extract_text
text = extract_text ( "example.pdf" )
print ( text )
請務必閱讀貢獻指南。
該存儲庫包含來自pyHanko
的程式碼;原始許可證已包含在此處。