يستخدم برنامج Python النصي مكتبات tabula-py
و pandas
لتحويل ملف PDF إلى ملف Excel. تتم كتابة كل جدول في ملف PDF على ورقة منفصلة في ملف Excel.
تم تكوين هذا المستودع لاستخدام GitHub Codespaces، الذي يوفر بيئة تطوير كاملة وقابلة للتكوين في السحابة. وإليك كيفية استخدامه:
انقر فوق الزر "فتح في Codespaces" الموجود أعلى المستودع، ثم انقر فوق الزر "إنشاء Codespace" الأخضر. سيؤدي هذا إلى فتح المستودع في Codespace جديد.
انتظر حتى يتم إنشاء Codespace. سيقوم GitHub بإنشاء Codespace جديد لهذا المستودع وإعداده وفقًا لملف devcontainer.json
. يتضمن ذلك سحب صورة Docker المحددة، وتشغيل postCreateCommand
لتثبيت tabula-py
و pandas
، وتثبيت ملحقات VS Code المحددة. قد تستغرق هذه العملية بضع دقائق.
أضف ملف PDF الخاص بك. بمجرد أن يصبح Codespace جاهزًا، قم بإضافة ملف PDF الخاص بك إلى المستودع. يمكنك القيام بذلك عن طريق سحب الملف وإسقاطه في مستكشف الملفات الموجود على الجانب الأيسر من الشاشة.
أضف ملف Excel الفارغ الخاص بك. أضف ملف Excel فارغًا إلى المستودع. يمكنك القيام بذلك عن طريق النقر بزر الماوس الأيمن على مستكشف الملفات وتحديد ملف جديد. قم بتسمية الملف بالملحق .xlsx
.
قم بتشغيل البرنامج النصي بايثون. بمجرد أن يصبح Codespace جاهزًا، قم بتشغيل الأمر التالي في الوحدة الطرفية:
بيثون pdf_to_excel.py
يحدد البرنامج النصي وظيفة pdf_to_excel(pdf_file_path, excel_file_path)
التي تقرأ ملف PDF وتكتب جداوله في ملف Excel.
إليك كيفية استخدام هذه الوظيفة:
pdf_to_excel('path_to_pdf_file.pdf', 'path_to_excel_file.xlsx')
استبدل path_to_pdf_file.pdf
بالمسار إلى ملف PDF الذي تريد تحويله، واستبدل `path_to_excel_file.xlsx`` بالمسار الذي تريد حفظ ملف Excel فيه.
tabula-py
: غلاف بسيط لـ Tabula يمكنه قراءة الجداول في ملف PDF.
pandas
: مكتبة قوية لمعالجة البيانات.
يمكنك تثبيت هذه التبعيات باستخدام النقطة:
pip3 تثبيت tabula-py pandas
تقوم وظيفة tabula.read_pdf
بقراءة ملف PDF وإرجاع قائمة الجداول. كل جدول عبارة عن DataFrame الباندا.
يتم استخدام مدير السياق pd.ExcelWriter
للكتابة في ملف Excel.
داخل مدير السياق، تتكرر حلقة for فوق قائمة الجداول. تتم كتابة كل جدول في ورقة منفصلة في ملف Excel باستخدام طريقة DataFrame.to_excel
التي توفرها مكتبة الباندا.