pdfminer.six下載 - pdfminer.six原始碼下載

下載

pdfminer.6

我們理解PDF

Pdfminer.6 是社群維護的原始 PDFMiner 的分支。它是一個從PDF文件中提取資訊的工具。它專注於獲取和分析文字數據。 Pdfminer.6 直接從 PDF 原始碼中提取頁面文字。它也可用於取得文字的確切位置、字體或顏色。

它以模組化方式構建，因此 pdfminer.6 的每個組件都可以輕鬆替換。您可以實作自己的解釋器或渲染設備，將 pdfminer.6 的功能用於文字分析以外的其他目的。

查看有關閱讀文件的完整文件。

完全用 Python 編寫。
解析、分析和轉換 PDF 文件。
將內容提取為文字、圖像、html 或 hOCR。
PDF-1.7 規格支援。（嗯，差不多）。
CJK 語言和垂直書寫腳本支援。
支援各種字型類型（Type1、TrueType、Type3 和 CID）。
支援擷取影像（JPG、JBIG2、點陣圖）。
支援各種壓縮（ASCIIHexDecode、ASCII85Decode、LZWDecode、FlateDecode、RunLengthDecode、CCITTFaxDecode）
支援 RC4 和 AES 加密。
支援 AcroForm 互動式表單擷取。
目錄提取。
標記內容擷取。
自動佈局分析。

或與 Python 一起使用。

 from pdfminer . high_level import extract_text

text = extract_text ( "example.pdf" )
print ( text )

請務必閱讀貢獻指南。

該存儲庫包含來自pyHanko的程式碼；原始許可證已包含在此處。

展開

附加信息

相關應用

爲您推薦

相關資訊全部