Atornille los OCR tradicionales o las bibliotecas pesadas para obtener datos de archivos PDF, ¡GenAI hace un mejor trabajo!
AIPDF es una biblioteca pura de Python independiente, minimalista pero potente que aprovecha modelos de IA de generación multimodal (OpenAI, llama3 o alternativas compatibles) para extraer datos de archivos PDF y convertirlos a varios formatos, como Markdown o JSON.
pip install aipdf
en macOS necesitarás instalar poppler
brew install poppler
from aipdf import ocr
# Your OpenAI API key
api_key = 'your_openai_api_key'
file = open ( 'somepdf.pdf' , 'rb' )
markdown_pages = ocr ( file , api_key )
Puedes usarlo con cualquier modelo multimodal de ollama.
ocr ( pdf_file , api_key = 'ollama' , model = "llama3.2" , base_url = 'http://localhost:11434/v1' , prompt = ...)
Elegimos que pase un objeto de archivo, porque de esa manera le resulta flexible usarlo con cualquier tipo de sistema de archivos, s3, archivos locales, URL, etc.
pdf_file = io . BytesIO ( requests . get ( 'https://arxiv.org/pdf/2410.02467' ). content )
# extract
pages = ocr ( pdf_file , api_key , prompt = "extract tables, return each table in json" )
s3 = boto3 . client ( 's3' , config = Config ( signature_version = 's3v4' ),
aws_access_key_id = access_token ,
aws_secret_access_key = '' , # Not needed for token-based auth
aws_session_token = access_token )
pdf_file = io . BytesIO ( s3 . get_object ( Bucket = bucket_name , Key = object_key )[ 'Body' ]. read ())
# extract
pages = ocr ( pdf_file , api_key , prompt = "extract charts data, turn it into tables that represent the variables in the chart" )
Mantendremos esto súper limpio, solo se requieren 3 bibliotecas:
Este proyecto tiene la licencia MIT; consulte el archivo de LICENCIA para obtener más detalles.
¡Las contribuciones son bienvenidas! No dude en enviar una solicitud de extracción.
Si tiene algún problema o tiene alguna pregunta, abra una incidencia en el repositorio de GitHub.
AIPDF hace que la extracción de datos PDF sea simple, flexible y potente. ¡Pruébelo y simplifique su flujo de trabajo de procesamiento de PDF hoy!