aipdf
v0.0.4
従来の OCR や重いライブラリを使って PDF からデータを取得するのは面倒ですが、GenAI はより良い仕事をします。
AIPDF は、スタンドアロンのミニマルでありながら強力な純粋な Python ライブラリであり、マルチモーダル生成 AI モデル (OpenAI、llama3、または互換性のある代替モデル) を利用して PDF からデータを抽出し、Markdown や JSON などのさまざまな形式に変換します。
pip install aipdf
macOS では、poppler をインストールする必要があります
brew install poppler
from aipdf import ocr
# Your OpenAI API key
api_key = 'your_openai_api_key'
file = open ( 'somepdf.pdf' , 'rb' )
markdown_pages = ocr ( file , api_key )
あらゆる ollam マルチモーダル モデルで使用できます
ocr ( pdf_file , api_key = 'ollama' , model = "llama3.2" , base_url = 'http://localhost:11434/v1' , prompt = ...)
ファイル オブジェクトを渡すことを選択しました。そうすることで、s3、ローカルファイル、URL など、あらゆるタイプのファイル システムで柔軟に使用できるからです。
pdf_file = io . BytesIO ( requests . get ( 'https://arxiv.org/pdf/2410.02467' ). content )
# extract
pages = ocr ( pdf_file , api_key , prompt = "extract tables, return each table in json" )
s3 = boto3 . client ( 's3' , config = Config ( signature_version = 's3v4' ),
aws_access_key_id = access_token ,
aws_secret_access_key = '' , # Not needed for token-based auth
aws_session_token = access_token )
pdf_file = io . BytesIO ( s3 . get_object ( Bucket = bucket_name , Key = object_key )[ 'Body' ]. read ())
# extract
pages = ocr ( pdf_file , api_key , prompt = "extract charts data, turn it into tables that represent the variables in the chart" )
この非常にクリーンな状態を維持し、必要なライブラリは 3 つだけにしておきます。
このプロジェクトは MIT ライセンスに基づいてライセンスされています。詳細については、LICENSE ファイルを参照してください。
貢献は大歓迎です!お気軽にプルリクエストを送信してください。
問題が発生した場合や質問がある場合は、GitHub リポジトリで問題を開いてください。
AIPDF は、PDF データ抽出をシンプル、柔軟、そして強力にします。今すぐ試して、PDF 処理ワークフローを簡素化してください。