この Python スクリプトはtabula-py
ライブラリとpandas
ライブラリを使用して PDF ファイルを Excel ファイルに変換します。 PDF ファイル内の各表は、Excel ファイル内の別のシートに書き込まれます。
このリポジトリは、クラウド内に完全な構成可能な開発環境を提供する GitHub コードスペースを使用するように構成されています。使用方法は次のとおりです。
リポジトリの上部にある「Open in Codespaces」ボタンをクリックし、次に緑色の「Create Codespace」ボタンをクリックします。これにより、新しいコードスペースでリポジトリが開きます。
コードスペースが作成されるまで待ちます。 GitHub は、このリポジトリ用に新しいコードスペースを作成し、 devcontainer.json
ファイルに従ってセットアップします。これには、指定された Docker イメージの取得、 postCreateCommand
の実行によるtabula-py
とpandas
インストール、指定された VS Code 拡張機能のインストールが含まれます。このプロセスには数分かかる場合があります。
PDF ファイルを追加します。コードスペースの準備ができたら、PDF ファイルをリポジトリに追加します。これを行うには、画面左側のファイル エクスプローラーにファイルをドラッグ アンド ドロップします。
空の Excel ファイルを追加します。空の Excel ファイルをリポジトリに追加します。これを行うには、ファイル エクスプローラーを右クリックし、[新しいファイル] を選択します。ファイルに.xlsx
拡張子を付けた名前を付けます。
Python スクリプトを実行します。コードスペースの準備ができたら、ターミナルで次のコマンドを実行します。
Python pdf_to_excel.py
このスクリプトは、PDF ファイルを読み取り、そのテーブルを Excel ファイルに書き込む関数pdf_to_excel(pdf_file_path, excel_file_path)
を定義します。
この機能の使用方法は次のとおりです。
pdf_to_excel('pdf_file.pdf へのパス', 'excel_file.xlsx へのパス')
path_to_pdf_file.pdf
変換する PDF ファイルへのパスに置き換え、`path_to_excel_file.xlsx` を Excel ファイルを保存するパスに置き換えます。
tabula-py
: PDF 内の表を読み取ることができる Tabula の単純なラッパー。
pandas
: 強力なデータ操作ライブラリ。
これらの依存関係は pip を使用してインストールできます。
pip3 インストール tabula-py pandas
tabula.read_pdf
関数は PDF ファイルを読み取り、テーブルのリストを返します。各テーブルはパンダのデータフレームです。
pd.ExcelWriter
コンテキスト マネージャーは、Excel ファイルへの書き込みに使用されます。
コンテキスト マネージャーの内部では、for ループがテーブルのリストを反復処理します。各テーブルは、pandas ライブラリによって提供されるDataFrame.to_excel
メソッドを使用して Excel ファイルの別のシートに書き込まれます。