Wenn Sie herkömmliche OCRs oder umfangreiche Bibliotheken aufgeben, um Daten aus PDFs zu erhalten, leistet GenAI einen besseren Job!
AIPDF ist eine eigenständige, minimalistische und dennoch leistungsstarke reine Python-Bibliothek, die multimodale Gen-KI-Modelle (OpenAI, llama3 oder kompatible Alternativen) nutzt, um Daten aus PDFs zu extrahieren und sie in verschiedene Formate wie Markdown oder JSON zu konvertieren.
pip install aipdf
Unter macOS müssen Sie Poppler installieren
brew install poppler
from aipdf import ocr
# Your OpenAI API key
api_key = 'your_openai_api_key'
file = open ( 'somepdf.pdf' , 'rb' )
markdown_pages = ocr ( file , api_key )
Sie können es mit allen multimodalen Ollama-Modellen verwenden
ocr ( pdf_file , api_key = 'ollama' , model = "llama3.2" , base_url = 'http://localhost:11434/v1' , prompt = ...)
Wir haben uns dafür entschieden, dass Sie ein Dateiobjekt übergeben, da Sie es auf diese Weise flexibel mit jedem Dateisystemtyp, S3, lokalen Dateien, URLs usw. verwenden können
pdf_file = io . BytesIO ( requests . get ( 'https://arxiv.org/pdf/2410.02467' ). content )
# extract
pages = ocr ( pdf_file , api_key , prompt = "extract tables, return each table in json" )
s3 = boto3 . client ( 's3' , config = Config ( signature_version = 's3v4' ),
aws_access_key_id = access_token ,
aws_secret_access_key = '' , # Not needed for token-based auth
aws_session_token = access_token )
pdf_file = io . BytesIO ( s3 . get_object ( Bucket = bucket_name , Key = object_key )[ 'Body' ]. read ())
# extract
pages = ocr ( pdf_file , api_key , prompt = "extract charts data, turn it into tables that represent the variables in the chart" )
Wir werden dies super sauber halten, nur 3 erforderliche Bibliotheken:
Dieses Projekt ist unter der MIT-Lizenz lizenziert – Einzelheiten finden Sie in der LIZENZ-Datei.
Beiträge sind willkommen! Bitte senden Sie gerne einen Pull Request.
Wenn Sie auf Probleme stoßen oder Fragen haben, öffnen Sie bitte ein Issue im GitHub-Repository.
AIPDF macht die PDF-Datenextraktion einfach, flexibel und leistungsstark. Probieren Sie es aus und vereinfachen Sie noch heute Ihren PDF-Verarbeitungsworkflow!