Au lieu des OCR traditionnels ou des bibliothèques lourdes pour obtenir des données à partir de PDF, GenAI fait un meilleur travail !
AIPDF est une bibliothèque Python pure autonome, minimaliste mais puissante qui exploite des modèles d'IA de génération multimodaux (OpenAI, lama3 ou alternatives compatibles) pour extraire des données de PDF et les convertir dans divers formats tels que Markdown ou JSON.
pip install aipdf
sous macOS, vous devrez installer poppler
brew install poppler
from aipdf import ocr
# Your OpenAI API key
api_key = 'your_openai_api_key'
file = open ( 'somepdf.pdf' , 'rb' )
markdown_pages = ocr ( file , api_key )
Vous pouvez utiliser avec n'importe quel modèle multimodal ollama
ocr ( pdf_file , api_key = 'ollama' , model = "llama3.2" , base_url = 'http://localhost:11434/v1' , prompt = ...)
Nous avons choisi que vous transmettiez un objet fichier, car de cette façon, vous pouvez l'utiliser avec n'importe quel type de système de fichiers, s3, fichiers locaux, URL, etc.
pdf_file = io . BytesIO ( requests . get ( 'https://arxiv.org/pdf/2410.02467' ). content )
# extract
pages = ocr ( pdf_file , api_key , prompt = "extract tables, return each table in json" )
s3 = boto3 . client ( 's3' , config = Config ( signature_version = 's3v4' ),
aws_access_key_id = access_token ,
aws_secret_access_key = '' , # Not needed for token-based auth
aws_session_token = access_token )
pdf_file = io . BytesIO ( s3 . get_object ( Bucket = bucket_name , Key = object_key )[ 'Body' ]. read ())
# extract
pages = ocr ( pdf_file , api_key , prompt = "extract charts data, turn it into tables that represent the variables in the chart" )
Nous garderons cela super propre, seulement 3 bibliothèques requises :
Ce projet est sous licence MIT - voir le fichier LICENSE pour plus de détails.
Les contributions sont les bienvenues ! N'hésitez pas à soumettre une Pull Request.
Si vous rencontrez des problèmes ou avez des questions, veuillez ouvrir un ticket sur le référentiel GitHub.
AIPDF rend l'extraction de données PDF simple, flexible et puissante. Essayez-le et simplifiez votre flux de travail de traitement PDF dès aujourd'hui !