aipdf下載 - aipdf原始碼下載

aipdf

Ai源碼

v0.0.4

下載

AIPDF：具有類似 GPT 的多模式模型的簡單 PDF OCR

使用傳統 OCR 或繁重的函式庫從 PDF 中獲取數據，GenAI 做得更好！

AIPDF 是一個獨立、簡約但功能強大的純 Python 庫，它利用多模式 gen AI 模型（OpenAI、llama3 或相容替代方案）從 PDF 中提取資料並將其轉換為各種格式，例如 Markdown 或 JSON。

安裝

pip install aipdf

在 macOS 中，您需要安裝 poppler

brew install poppler

快速入門

 from aipdf import ocr

# Your OpenAI API key   
api_key = 'your_openai_api_key'

file = open ( 'somepdf.pdf' , 'rb' )
markdown_pages = ocr ( file , api_key )

奧拉馬

您可以與任何 ollama 多模式模型一起使用

 ocr ( pdf_file , api_key = 'ollama' , model = "llama3.2" , base_url = 'http://localhost:11434/v1' , prompt = ...)

任何檔案系統

我們選擇傳遞一個文件對象，因為這樣您就可以靈活地將其與任何類型的文件系統、s3、本地文件、url 等一起使用

來自網址

 pdf_file = io . BytesIO ( requests . get ( 'https://arxiv.org/pdf/2410.02467' ). content )

# extract
pages = ocr ( pdf_file , api_key , prompt = "extract tables, return each table in json" )

來自S3

 s3 = boto3 . client ( 's3' , config = Config ( signature_version = 's3v4' ),
                  aws_access_key_id = access_token ,
                  aws_secret_access_key = '' , # Not needed for token-based auth
                  aws_session_token = access_token )


pdf_file = io . BytesIO ( s3 . get_object ( Bucket = bucket_name , Key = object_key )[ 'Body' ]. read ())
# extract 
pages = ocr ( pdf_file , api_key , prompt = "extract charts data, turn it into tables that represent the variables in the chart" )