استبدل أدوات التعرف الضوئي على الحروف التقليدية أو المكتبات الثقيلة للحصول على البيانات من ملفات PDF، حيث يقوم GenAI بعمل أفضل!
AIPDF هي مكتبة Python نقية قائمة بذاتها، وبسيطة، لكنها قوية تستفيد من نماذج الذكاء الاصطناعي متعددة الوسائط (OpenAI أو llama3 أو البدائل المتوافقة) لاستخراج البيانات من ملفات PDF وتحويلها إلى تنسيقات مختلفة مثل Markdown أو JSON.
pip install aipdf
في نظام التشغيل macOS، ستحتاج إلى تثبيت Poppler
brew install poppler
from aipdf import ocr
# Your OpenAI API key
api_key = 'your_openai_api_key'
file = open ( 'somepdf.pdf' , 'rb' )
markdown_pages = ocr ( file , api_key )
يمكنك استخدامه مع أي نماذج ollama متعددة الوسائط
ocr ( pdf_file , api_key = 'ollama' , model = "llama3.2" , base_url = 'http://localhost:11434/v1' , prompt = ...)
لقد اخترنا أن تقوم بتمرير كائن ملف، لأنه بهذه الطريقة سيكون من المرن بالنسبة لك استخدام هذا مع أي نوع من أنظمة الملفات، s3، الملفات المحلية، عناوين url وما إلى ذلك
pdf_file = io . BytesIO ( requests . get ( 'https://arxiv.org/pdf/2410.02467' ). content )
# extract
pages = ocr ( pdf_file , api_key , prompt = "extract tables, return each table in json" )
s3 = boto3 . client ( 's3' , config = Config ( signature_version = 's3v4' ),
aws_access_key_id = access_token ,
aws_secret_access_key = '' , # Not needed for token-based auth
aws_session_token = access_token )
pdf_file = io . BytesIO ( s3 . get_object ( Bucket = bucket_name , Key = object_key )[ 'Body' ]. read ())
# extract
pages = ocr ( pdf_file , api_key , prompt = "extract charts data, turn it into tables that represent the variables in the chart" )
سوف نحافظ على نظافة هذه المكتبات، فقط 3 مكتبات مطلوبة:
هذا المشروع مرخص بموجب ترخيص MIT - راجع ملف الترخيص للحصول على التفاصيل.
المساهمات هي موضع ترحيب! لا تتردد في تقديم طلب السحب.
إذا واجهت أي مشاكل أو لديك أي أسئلة، يرجى فتح مشكلة في مستودع GitHub.
AIPDF يجعل عملية استخراج بيانات PDF بسيطة ومرنة وقوية. جربه وقم بتبسيط سير عمل معالجة PDF الخاص بك اليوم!