Gunakan OCR tradisional atau perpustakaan berat untuk mendapatkan data dari PDF, GenAI melakukan pekerjaan lebih baik!
AIPDF adalah pustaka Python murni yang berdiri sendiri, minimalis, namun kuat yang memanfaatkan model AI generasi multi-modal (OpenAI, llama3, atau alternatif yang kompatibel) untuk mengekstrak data dari PDF dan mengubahnya menjadi berbagai format seperti Markdown atau JSON.
pip install aipdf
di macOS Anda perlu menginstal poppler
brew install poppler
from aipdf import ocr
# Your OpenAI API key
api_key = 'your_openai_api_key'
file = open ( 'somepdf.pdf' , 'rb' )
markdown_pages = ocr ( file , api_key )
Anda dapat menggunakannya dengan model multi-modal ollama apa pun
ocr ( pdf_file , api_key = 'ollama' , model = "llama3.2" , base_url = 'http://localhost:11434/v1' , prompt = ...)
Kami memilih agar Anda meneruskan objek file, karena dengan cara itu Anda fleksibel untuk menggunakannya dengan semua jenis sistem file, s3, file lokal, url, dll.
pdf_file = io . BytesIO ( requests . get ( 'https://arxiv.org/pdf/2410.02467' ). content )
# extract
pages = ocr ( pdf_file , api_key , prompt = "extract tables, return each table in json" )
s3 = boto3 . client ( 's3' , config = Config ( signature_version = 's3v4' ),
aws_access_key_id = access_token ,
aws_secret_access_key = '' , # Not needed for token-based auth
aws_session_token = access_token )
pdf_file = io . BytesIO ( s3 . get_object ( Bucket = bucket_name , Key = object_key )[ 'Body' ]. read ())
# extract
pages = ocr ( pdf_file , api_key , prompt = "extract charts data, turn it into tables that represent the variables in the chart" )
Kami akan menjaga ini tetap bersih, hanya 3 perpustakaan yang diperlukan:
Proyek ini dilisensikan di bawah Lisensi MIT - lihat file LISENSI untuk detailnya.
Kontribusi dipersilahkan! Silakan kirimkan Permintaan Tarik.
Jika Anda mengalami masalah atau memiliki pertanyaan, silakan buka masalah di repositori GitHub.
AIPDF membuat ekstraksi data PDF menjadi sederhana, fleksibel, dan kuat. Cobalah dan sederhanakan alur kerja pemrosesan PDF Anda hari ini!