pdfminer.six
20240706
PDF を理解する
Pdfminer.six は、コミュニティで管理されているオリジナルの PDFMiner のフォークです。 PDF文書から情報を抽出するツールです。テキスト データの取得と分析に重点を置いています。 Pdfminer.six は、PDF のソースコードからページのテキストを直接抽出します。テキストの正確な位置、フォント、色を取得するためにも使用できます。
pdfminer.six の各コンポーネントを簡単に置き換えることができるように、モジュール方式で構築されています。テキスト分析以外の目的で pdfminer.six の機能を使用する独自のインタープリターまたはレンダリング デバイスを実装できます。
Read the Docs で完全なドキュメントを確認してください。
Python 3.8 以降をインストールします。
pdfminer.6 をインストールします。
pip install pdfminer.six
(オプション) イメージを抽出するための追加の依存関係をインストールします。
pip install ' pdfminer.six[image] '
コマンドライン インターフェイスを使用して PDF からテキストを抽出します。
pdf2txt.py example.pdf
または Python で使用します。
from pdfminer . high_level import extract_text
text = extract_text ( "example.pdf" )
print ( text )
投稿ガイドラインを必ずお読みください。
このリポジトリにはpyHanko
のコードが含まれています。オリジナルのライセンスはここに含まれています。