aipdf
v0.0.4
使用传统 OCR 或繁重的库从 PDF 中获取数据,GenAI 做得更好!
AIPDF 是一个独立、简约但功能强大的纯 Python 库,它利用多模式 gen AI 模型(OpenAI、llama3 或兼容替代方案)从 PDF 中提取数据并将其转换为各种格式,例如 Markdown 或 JSON。
pip install aipdf
在 macOS 中,您需要安装 poppler
brew install poppler
from aipdf import ocr
# Your OpenAI API key
api_key = 'your_openai_api_key'
file = open ( 'somepdf.pdf' , 'rb' )
markdown_pages = ocr ( file , api_key )
您可以与任何 ollama 多模式模型一起使用
ocr ( pdf_file , api_key = 'ollama' , model = "llama3.2" , base_url = 'http://localhost:11434/v1' , prompt = ...)
我们选择传递一个文件对象,因为这样您就可以灵活地将其与任何类型的文件系统、s3、本地文件、url 等一起使用
pdf_file = io . BytesIO ( requests . get ( 'https://arxiv.org/pdf/2410.02467' ). content )
# extract
pages = ocr ( pdf_file , api_key , prompt = "extract tables, return each table in json" )
s3 = boto3 . client ( 's3' , config = Config ( signature_version = 's3v4' ),
aws_access_key_id = access_token ,
aws_secret_access_key = '' , # Not needed for token-based auth
aws_session_token = access_token )
pdf_file = io . BytesIO ( s3 . get_object ( Bucket = bucket_name , Key = object_key )[ 'Body' ]. read ())
# extract
pages = ocr ( pdf_file , api_key , prompt = "extract charts data, turn it into tables that represent the variables in the chart" )
我们将保持这个超级干净,只有 3 个必需的库:
该项目根据 MIT 许可证获得许可 - 有关详细信息,请参阅许可证文件。
欢迎贡献!请随时提交 Pull 请求。
如果您遇到任何问题或有任何疑问,请在 GitHub 存储库上提出问题。
AIPDF 使 PDF 数据提取变得简单、灵活且强大。立即尝试并简化您的 PDF 处理工作流程!