نحن نفهم PDF
Pdfminer.six عبارة عن شوكة مجتمعية لـ PDFMiner الأصلي. إنها أداة لاستخراج المعلومات من مستندات PDF. وهو يركز على الحصول على البيانات النصية وتحليلها. يقوم Pdfminer.six باستخراج النص من الصفحة مباشرة من الكود المصدري لملف PDF. ويمكن استخدامه أيضًا للحصول على الموقع الدقيق أو الخط أو اللون للنص.
لقد تم تصميمه بطريقة معيارية بحيث يمكن استبدال كل مكون من مكونات pdfminer.six بسهولة. يمكنك تنفيذ المترجم الفوري أو جهاز العرض الخاص بك الذي يستخدم قوة pdfminer.six لأغراض أخرى غير تحليل النص.
تحقق من الوثائق الكاملة على قراءة المستندات.
قم بتثبيت Python 3.8 أو الأحدث.
قم بتثبيت pdfminer.six.
pip install pdfminer.six
(اختياريًا) قم بتثبيت تبعيات إضافية لاستخراج الصور.
pip install ' pdfminer.six[image] '
استخدم واجهة سطر الأوامر لاستخراج النص من ملف pdf.
pdf2txt.py example.pdf
أو استخدمه مع بايثون.
from pdfminer . high_level import extract_text
text = extract_text ( "example.pdf" )
print ( text )
تأكد من قراءة إرشادات المساهمة.
يتضمن هذا المستودع كودًا من pyHanko
؛ تم تضمين الترخيص الأصلي هنا.