此 Python 腳本使用tabula-py
和pandas
庫將 PDF 檔案轉換為 Excel 檔案。 PDF 檔案中的每個表格都會寫入 Excel 檔案中的單獨工作表中。
該儲存庫配置為使用 GitHub Codespaces,它在雲端提供了完整的、可配置的開發環境。使用方法如下:
按一下儲存庫頂部的 Open in Codespaces 按鈕,然後按一下綠色的 Create Codespace 按鈕。這將在新的程式碼空間中開啟儲存庫。
等待創建代碼空間。 GitHub 會為此儲存庫建立一個新的 Codespace,並根據devcontainer.json
檔案進行設定。這包括拉取指定的 Docker 映像、執行postCreateCommand
以安裝tabula-py
和pandas
以及安裝指定的 VS Code 擴充功能。此過程可能需要幾分鐘。
新增您的 PDF 檔案。 Codespace 準備好後,將您的 PDF 檔案新增至儲存庫。您可以透過將檔案拖曳到螢幕左側的檔案總管中來完成此操作。
新增空白 Excel 檔案。將空 Excel 檔案新增至儲存庫。您可以透過右鍵單擊檔案總管並選擇“新檔案”來完成此操作。使用.xlsx
副檔名命名該檔。
運行 Python 腳本。 Codespace 準備好後,在終端機中執行以下命令:
python pdf_to_excel.py
該腳本定義了一個函數pdf_to_excel(pdf_file_path, excel_file_path)
,該函數會讀取 PDF 檔案並將其表寫入 Excel 檔案。
以下是如何使用此功能:
pdf_to_excel('path_to_pdf_file.pdf', 'path_to_excel_file.xlsx')
將path_to_pdf_file.pdf
替換為要轉換的 PDF 檔案的路徑,並將 `path_to_excel_file.xlsx`` 替換為要儲存 Excel 檔案的路徑。
tabula-py
:Tabula 的簡單包裝,可以讀取 PDF 中的表格。
pandas
:一個強大的資料操作庫。
您可以使用 pip 安裝這些依賴項:
pip3 安裝 tabula-py pandas
tabula.read_pdf
函數讀取 PDF 檔案並傳回表格清單。每個表都是一個 pandas DataFrame。
pd.ExcelWriter
上下文管理器用於寫入 Excel 檔案。
在上下文管理器中,for 迴圈遍歷表列表。使用 pandas 函式庫提供的DataFrame.to_excel
方法將每個表寫入 Excel 檔案中的單獨工作表。