aipdf
v0.0.4
使用傳統 OCR 或繁重的函式庫從 PDF 中獲取數據,GenAI 做得更好!
AIPDF 是一個獨立、簡約但功能強大的純 Python 庫,它利用多模式 gen AI 模型(OpenAI、llama3 或相容替代方案)從 PDF 中提取資料並將其轉換為各種格式,例如 Markdown 或 JSON。
pip install aipdf
在 macOS 中,您需要安裝 poppler
brew install poppler
from aipdf import ocr
# Your OpenAI API key
api_key = 'your_openai_api_key'
file = open ( 'somepdf.pdf' , 'rb' )
markdown_pages = ocr ( file , api_key )
您可以與任何 ollama 多模式模型一起使用
ocr ( pdf_file , api_key = 'ollama' , model = "llama3.2" , base_url = 'http://localhost:11434/v1' , prompt = ...)
我們選擇傳遞一個文件對象,因為這樣您就可以靈活地將其與任何類型的文件系統、s3、本地文件、url 等一起使用
pdf_file = io . BytesIO ( requests . get ( 'https://arxiv.org/pdf/2410.02467' ). content )
# extract
pages = ocr ( pdf_file , api_key , prompt = "extract tables, return each table in json" )
s3 = boto3 . client ( 's3' , config = Config ( signature_version = 's3v4' ),
aws_access_key_id = access_token ,
aws_secret_access_key = '' , # Not needed for token-based auth
aws_session_token = access_token )
pdf_file = io . BytesIO ( s3 . get_object ( Bucket = bucket_name , Key = object_key )[ 'Body' ]. read ())
# extract
pages = ocr ( pdf_file , api_key , prompt = "extract charts data, turn it into tables that represent the variables in the chart" )
我們將保持這個超級乾淨,只有 3 個必需的庫:
該項目根據 MIT 許可證獲得許可 - 有關詳細信息,請參閱許可證文件。
歡迎貢獻!請隨時提交 Pull 請求。
如果您遇到任何問題或有任何疑問,請在 GitHub 儲存庫上提出問題。
AIPDF 讓 PDF 資料擷取變得簡單、靈活且強大。立即嘗試並簡化您的 PDF 處理工作流程!