PDFMiner هي أداة لاستخراج النص لمستندات PDF.
تحذير : اعتبارًا من عام 2020، لم تتم صيانة PDFMiner بشكل نشط . لا يزال الكود يعمل، لكن هذا المشروع خامل إلى حد كبير. بالنسبة للمشروع النشط، تحقق من شوكته pdfminer.six.
> pip install pdfminer
> pdf2txt.py samples/simple1.pdf
يقوم pdf2txt.py باستخراج كافة النصوص التي يتم عرضها برمجيًا. كما أنه يستخرج المواقع المقابلة وأسماء الخطوط وأحجام الخطوط واتجاه الكتابة (أفقيًا أو رأسيًا) لكل مقطع نص. لا يتعرف على النص في الصور. يجب توفير كلمة مرور لمستندات PDF المقيدة.
> pdf2txt.py [-P password] [-o output] [-t text|html|xml|tag]
[-O output_dir] [-c encoding] [-s scale] [-R rotation]
[-Y normal|loose|exact] [-p pagenos] [-m maxpages]
[-S] [-C] [-n] [-A] [-V]
[-M char_margin] [-L line_margin] [-W word_margin]
[-F boxes_flow] [-d]
input.pdf ...
-P password
: كلمة مرور PDF.-o output
: اسم ملف الإخراج.-t text|html|xml|tag
: نوع الإخراج. (الافتراضي: يتم الاستدلال عليه تلقائيًا من اسم ملف الإخراج.)-O output_dir
: دليل إخراج الصور المستخرجة.-c encoding
: ترميز الإخراج. (الافتراضي: أوتف-8)-s scale
: مقياس الإخراج.-R rotation
: لتدوير الصفحة بالدرجة.-Y normal|loose|exact
: يحدد وضع التخطيط. (فقط لمخرجات HTML.)-p pagenos
: يعالج صفحات معينة فقط.-m maxpages
: يحدد الحد الأقصى لعدد الصفحات المراد معالجتها.-S
: يحذف أحرف التحكم.-C
: تعطيل التخزين المؤقت للموارد.-n
: تعطيل تحليل التخطيط.-A
: يطبق تحليل التخطيط لجميع النصوص بما في ذلك الأشكال.-V
: يكتشف الكتابة العمودية تلقائيًا.-M char_margin
: يحدد هامش الحرف.-W word_margin
: يحدد هامش الكلمة.-L line_margin
: يحدد هامش السطر.-F boxes_flow
: يحدد نسبة تدفق الصندوق.-d
: تشغيل إخراج التصحيح.يتم استخدام dumppdf.py لتصحيح أخطاء ملفات PDF. يقوم بتفريغ جميع المحتويات الداخلية بتنسيق XML الزائف.
> dumppdf.py [-P password] [-a] [-p pageid] [-i objid]
[-o output] [-r|-b|-t] [-T] [-O directory] [-d]
input.pdf ...
-P password
: كلمة مرور PDF.-a
: يستخرج كافة الكائنات.-p pageid
: يستخرج كائن الصفحة.-i objid
: يستخرج كائنًا معينًا.-o output
: اسم ملف الإخراج.-r
: الوضع الخام. مقالب التدفقات الخام المضغوطة/المشفرة.-b
: الوضع الثنائي. مقالب التدفقات غير المضغوطة/التي تم فك تشفيرها.-t
: وضع النص. مقالب التدفقات في تنسيق النص.-T
: الوضع الموسوم. مقالب المحتويات الموسومة.-O output_dir
: دليل الإخراج للتدفقات المستخرجة.