Skrip Python ini menggunakan pustaka tabula-py
dan pandas
untuk mengubah file PDF menjadi file Excel. Setiap tabel dalam file PDF ditulis ke lembar terpisah di file Excel.
Repositori ini dikonfigurasi untuk menggunakan GitHub Codespaces, yang menyediakan lingkungan pengembangan lengkap dan dapat dikonfigurasi di cloud. Berikut cara menggunakannya:
Klik tombol Buka di Codespaces di bagian atas repositori, lalu klik tombol hijau, Buat Codespace. Ini akan membuka repositori di Codespace baru.
Tunggu hingga Codespace dibuat. GitHub akan membuat Codespace baru untuk repositori ini dan mengaturnya sesuai dengan file devcontainer.json
. Ini termasuk menarik image Docker yang ditentukan, menjalankan postCreateCommand
untuk menginstal tabula-py
dan pandas
, dan menginstal ekstensi VS Code yang ditentukan. Proses ini mungkin memakan waktu beberapa menit.
Tambahkan file PDF Anda. Setelah Codespace siap, tambahkan file PDF Anda ke repositori. Anda dapat melakukan ini dengan menyeret dan melepaskan file ke dalam file explorer di sisi kiri layar.
Tambahkan file Excel kosong Anda. Tambahkan file Excel kosong ke repositori. Anda dapat melakukannya dengan mengklik kanan pada file explorer dan memilih File Baru. Beri nama file dengan ekstensi .xlsx
.
Jalankan skrip Python. Setelah Codespace siap, jalankan perintah berikut di terminal:
python pdf_to_excel.py
Skrip mendefinisikan fungsi pdf_to_excel(pdf_file_path, excel_file_path)
, yang membaca file PDF dan menulis tabelnya ke file Excel.
Inilah cara Anda dapat menggunakan fungsi ini:
pdf_to_excel('path_to_pdf_file.pdf', 'path_to_excel_file.xlsx')
Ganti path_to_pdf_file.pdf
dengan jalur ke file PDF yang ingin Anda konversi, dan ganti `path_to_excel_file.xlsx`` dengan jalur tempat Anda ingin menyimpan file Excel.
tabula-py
: Pembungkus sederhana untuk Tabula, yang dapat membaca tabel dalam PDF.
pandas
: Pustaka manipulasi data yang kuat.
Anda dapat menginstal dependensi ini dengan pip:
pip3 instal tabula-py panda
Fungsi tabula.read_pdf
membaca file PDF dan mengembalikan daftar tabel. Setiap tabel adalah DataFrame panda.
Manajer konteks pd.ExcelWriter
digunakan untuk menulis ke file Excel.
Di dalam manajer konteks, perulangan for mengulangi daftar tabel. Setiap tabel ditulis ke lembar terpisah di file Excel dengan metode DataFrame.to_excel
yang disediakan oleh perpustakaan pandas.