สคริปต์ Python นี้ใช้ไลบรารี tabula-py
และ pandas
เพื่อแปลงไฟล์ PDF เป็นไฟล์ Excel แต่ละตารางในไฟล์ PDF จะถูกเขียนลงในแผ่นงานแยกต่างหากในไฟล์ Excel
พื้นที่เก็บข้อมูลนี้ได้รับการกำหนดค่าให้ใช้ GitHub Codespaces ซึ่งมีสภาพแวดล้อมการพัฒนาที่สมบูรณ์และกำหนดค่าได้ในระบบคลาวด์ นี่คือวิธีการใช้งาน:
คลิกปุ่มเปิดใน Codespaces ที่ด้านบนของที่เก็บ จากนั้นคลิกปุ่มสีเขียว สร้าง Codespace นี่จะเป็นการเปิดพื้นที่เก็บข้อมูลใน Codespace ใหม่
รอให้ Codespace ถูกสร้างขึ้น GitHub จะสร้าง Codespace ใหม่สำหรับพื้นที่เก็บข้อมูลนี้ และตั้งค่าตามไฟล์ devcontainer.json
ซึ่งรวมถึงการดึงอิมเมจ Docker ที่ระบุ รัน postCreateCommand
เพื่อติดตั้ง tabula-py
และ pandas
และติดตั้งส่วนขยาย VS Code ที่ระบุ กระบวนการนี้อาจใช้เวลาสักครู่
เพิ่มไฟล์ PDF ของคุณ เมื่อ Codespace พร้อมแล้ว ให้เพิ่มไฟล์ PDF ของคุณไปยังที่เก็บ คุณสามารถทำได้โดยการลากและวางไฟล์ลงใน File Explorer ทางด้านซ้ายของหน้าจอ
เพิ่มไฟล์ Excel เปล่าของคุณ เพิ่มไฟล์ Excel เปล่าลงในที่เก็บ คุณสามารถทำได้โดยคลิกขวาที่ File Explorer แล้วเลือก New File ตั้งชื่อไฟล์ด้วยนามสกุล .xlsx
เรียกใช้สคริปต์ Python เมื่อ Codespace พร้อมแล้ว ให้รันคำสั่งต่อไปนี้ในเทอร์มินัล:
หลาม pdf_to_excel.py
สคริปต์กำหนดฟังก์ชัน pdf_to_excel(pdf_file_path, excel_file_path)
ซึ่งจะอ่านไฟล์ PDF และเขียนตารางลงในไฟล์ Excel
คุณสามารถใช้ฟังก์ชันนี้ได้ดังนี้:
pdf_to_excel('path_to_pdf_file.pdf', 'path_to_excel_file.xlsx')
แทนที่ path_to_pdf_file.pdf
ด้วยเส้นทางไปยังไฟล์ PDF ที่คุณต้องการแปลง และแทนที่ `path_to_excel_file.xlsx`` ด้วยเส้นทางที่คุณต้องการบันทึกไฟล์ Excel
tabula-py
: wrapper อย่างง่ายสำหรับ Tabula ซึ่งสามารถอ่านตารางในรูปแบบ PDF
pandas
: ไลบรารีการจัดการข้อมูลอันทรงพลัง
คุณสามารถติดตั้งการขึ้นต่อกันเหล่านี้ด้วย pip:
pip3 ติดตั้ง tabula-py pandas
ฟังก์ชัน tabula.read_pdf
อ่านไฟล์ PDF และส่งคืนรายการตาราง แต่ละตารางเป็น DataFrame ของแพนด้า
ตัวจัดการบริบท pd.ExcelWriter
ใช้เพื่อเขียนลงในไฟล์ Excel
ภายในตัวจัดการบริบท for loop จะวนซ้ำรายการตาราง แต่ละตารางถูกเขียนลงในแผ่นงานแยกต่างหากในไฟล์ Excel ด้วยวิธี DataFrame.to_excel
ที่จัดทำโดยไลบรารี pandas