此 Python 脚本使用tabula-py
和pandas
库将 PDF 文件转换为 Excel 文件。 PDF 文件中的每个表格都写入 Excel 文件中的单独工作表中。
该存储库配置为使用 GitHub Codespaces,它在云中提供了完整的、可配置的开发环境。使用方法如下:
单击存储库顶部的 Open in Codespaces 按钮,然后单击绿色的 Create Codespace 按钮。这将在新的代码空间中打开存储库。
等待创建代码空间。 GitHub 会为此存储库创建一个新的 Codespace,并根据devcontainer.json
文件进行设置。这包括拉取指定的 Docker 映像、运行postCreateCommand
以安装tabula-py
和pandas
以及安装指定的 VS Code 扩展。此过程可能需要几分钟。
添加您的 PDF 文件。 Codespace 准备就绪后,将您的 PDF 文件添加到存储库中。您可以通过将文件拖放到屏幕左侧的文件资源管理器中来完成此操作。
添加空 Excel 文件。将空 Excel 文件添加到存储库。您可以通过右键单击文件资源管理器并选择“新建文件”来完成此操作。使用.xlsx
扩展名命名该文件。
运行 Python 脚本。 Codespace 准备就绪后,在终端中运行以下命令:
python pdf_to_excel.py
该脚本定义了一个函数pdf_to_excel(pdf_file_path, excel_file_path)
,该函数读取 PDF 文件并将其表写入 Excel 文件。
以下是如何使用此功能:
pdf_to_excel('path_to_pdf_file.pdf', 'path_to_excel_file.xlsx')
将path_to_pdf_file.pdf
替换为要转换的 PDF 文件的路径,并将 `path_to_excel_file.xlsx`` 替换为要保存 Excel 文件的路径。
tabula-py
:Tabula 的简单包装,可以读取 PDF 中的表格。
pandas
:一个强大的数据操作库。
您可以使用 pip 安装这些依赖项:
pip3 安装 tabula-py pandas
tabula.read_pdf
函数读取 PDF 文件并返回表格列表。每个表都是一个 pandas DataFrame。
pd.ExcelWriter
上下文管理器用于写入 Excel 文件。
在上下文管理器中,for 循环遍历表列表。使用 pandas 库提供的DataFrame.to_excel
方法将每个表写入 Excel 文件中的单独工作表。