مكتبة Apache PDFBox هي أداة Java مفتوحة المصدر للعمل مع مستندات PDF. يتيح هذا المشروع إنشاء مستندات PDF جديدة ومعالجة المستندات الموجودة والقدرة على استخراج المحتوى من المستندات. يتضمن PDFBox أيضًا العديد من الأدوات المساعدة لسطر الأوامر. يتم نشر PDFBox بموجب ترخيص Apache، الإصدار 2.0.
PDFBox هو مشروع تابع لمؤسسة Apache Software Foundation.
يمكنك تنزيل الإصدارات الثنائية للإصدارات قيد التطوير حاليًا أو الإصدارات الأقدم من صفحة التنزيل الخاصة بنا.
أنت بحاجة إلى Java 11 (أو أعلى) وMaven 3 لإنشاء PDFBox. أمر البناء الموصى به هو:
mvn clean install
سيقوم البناء الافتراضي بتجميع مصادر Java وحزم الفئات الثنائية في حزم jar. راجع وثائق Maven للتعرف على جميع خيارات البناء الأخرى المتاحة.
هناك طرق مختلفة لمساعدتنا في تحسين PDFBox.
يرجى اتباع الإرشادات الموجودة على صفحة الدعم الخاصة بنا.
إذا كانت لديك أسئلة حول كيفية استخدام PDFBox، فاطرحها على القائمة البريدية للمستخدمين. وهذا سوف تحصل على المساعدة من المجتمع بأكمله.
ستوفر أيضًا أمثلة PDFBox ورمز الاختبار الموجود في المصادر معلومات إضافية.
وهناك موارد إضافية متاحة على مواقع مثل Stack Overflow.
إذا كنت متأكدًا من العثور على خطأ ما، فيرجى الإبلاغ عن المشكلة في أداة تعقب المشكلات لدينا.
راجع أداة تعقب المشكلات للحصول على القائمة الكاملة للمشكلات المعروفة والميزات المطلوبة. بعض المشكلات الأكثر شيوعًا هي:
تحصل على نص مثل "G38G43G36G51G5" بدلاً من ما تتوقعه عند استخراج النص. وذلك لأن الأحرف عبارة عن ترميز داخلي لا معنى له يشير إلى الحروف الرسومية المضمنة في مستند PDF. الطريقة الوحيدة للوصول إلى النص هي استخدام التعرف الضوئي على الحروف (OCR). قد يكون هذا تعزيزًا في المستقبل.
لقد حصلت على رسالة خطأ مثل java.io.IOException: Can't handle font width
قد يكون هذا بسبب عدم وجود دليل org/Apache/pdfbox/resources في مسار الفصل الدراسي الخاص بك. الحل الأسهل هو تضمين Apache-pdfbox-xxxjar في مسار الفصل الدراسي الخاص بك.
تحصل على نص يحتوي على الأحرف الصحيحة، ولكن بترتيب خاطئ. قد يكون هذا بسبب عدم تمكين الفرز. يتم تخزين النص الموجود في ملفات PDF في أجزاء ولا يلزم تخزين الأجزاء بالترتيب الذي يتم عرضها به على الصفحة. بشكل افتراضي، لا يقوم PDFBox بفرز النص.
العمل الجماعي: حقوق الطبع والنشر لعام 2015 محفوظة لمؤسسة Apache Software Foundation.
مرخص لمؤسسة Apache Software Foundation (ASF) بموجب اتفاقية ترخيص واحدة أو أكثر للمساهمين. راجع ملف الإشعار الموزع مع هذا العمل للحصول على معلومات إضافية بخصوص ملكية حقوق الطبع والنشر. يقوم ASF بترخيص هذا الملف لك بموجب ترخيص Apache، الإصدار 2.0 ("الترخيص")؛ لا يجوز لك استخدام هذا الملف إلا وفقًا للترخيص. يمكنك الحصول على نسخة من الترخيص على
https://www.apache.org/licenses/LICENSE-2.0
ما لم يكن ذلك مطلوبًا بموجب القانون المعمول به أو تم الاتفاق عليه كتابيًا، يتم توزيع البرامج الموزعة بموجب الترخيص على أساس "كما هي"، دون ضمانات أو شروط من أي نوع، سواء كانت صريحة أو ضمنية. راجع الترخيص لمعرفة الأذونات والقيود التي تحكم اللغة المحددة بموجب الترخيص.
يتضمن هذا التوزيع برامج التشفير. قد يكون لدى البلد الذي تقيم فيه حاليًا قيود على استيراد برامج التشفير و/أو حيازتها و/أو استخدامها و/أو إعادة تصديرها إلى بلد آخر. قبل استخدام أي برنامج تشفير، يرجى مراجعة القوانين واللوائح والسياسات المعمول بها في بلدك فيما يتعلق باستيراد برامج التشفير أو حيازتها أو استخدامها أو إعادة تصديرها، لمعرفة ما إذا كان ذلك مسموحًا به. راجع https://www.wassenaar.org/ لمزيد من المعلومات.
قامت وزارة التجارة التابعة للحكومة الأمريكية، مكتب الصناعة والأمن (BIS)، بتصنيف هذا البرنامج على أنه رقم مراقبة السلع التصديرية (ECCN) 5D002.C.1، والذي يتضمن برنامج أمان المعلومات الذي يستخدم أو يؤدي وظائف التشفير باستخدام خوارزميات غير متماثلة. إن شكل وطريقة توزيع Apache Software Foundation هذا يجعله مؤهلاً للتصدير بموجب استثناء الترخيص ENC Technology Software Unrestricted (TSU) (راجع لوائح إدارة تصدير BIS، القسم 740.13) لكل من رمز الكائن والتعليمة البرمجية المصدر.
فيما يلي مزيد من التفاصيل حول برنامج التشفير المضمن:
يستخدم Apache PDFBox بنية Java Cryptography Architecture (JCA) ومكتبات Bouncy Castle للتعامل مع التشفير في مستندات PDF.