Этот скрипт Python использует библиотеки tabula-py
и pandas
для преобразования файла PDF в файл Excel. Каждая таблица в файле PDF записывается на отдельный лист файла Excel.
Этот репозиторий настроен на использование GitHub Codespaces, который предоставляет полную настраиваемую среду разработки в облаке. Вот как его использовать:
Нажмите кнопку «Открыть в кодовых пространствах» в верхней части репозитория, затем нажмите зеленую кнопку «Создать кодовое пространство». Это откроет репозиторий в новом кодовом пространстве.
Подождите, пока будет создано Codespace. GitHub создаст новое пространство кода для этого репозитория и настроит его в соответствии с файлом devcontainer.json
. Это включает в себя извлечение указанного образа Docker, запуск postCreateCommand
для установки tabula-py
и pandas
и установку указанных расширений VS Code. Этот процесс может занять несколько минут.
Добавьте свой PDF-файл. Как только Codespace будет готово, добавьте PDF-файл в репозиторий. Вы можете сделать это, перетащив файл в проводник в левой части экрана.
Добавьте пустой файл Excel. Добавьте в репозиторий пустой файл Excel. Вы можете сделать это, щелкнув правой кнопкой мыши проводник и выбрав «Новый файл». Назовите файл с расширением .xlsx
.
Запустите скрипт Python. Когда кодовое пространство будет готово, выполните в терминале следующую команду:
Python pdf_to_excel.py
Сценарий определяет функцию pdf_to_excel(pdf_file_path, excel_file_path)
, которая читает PDF-файл и записывает его таблицы в файл Excel.
Вот как вы можете использовать эту функцию:
pdf_to_excel('path_to_pdf_file.pdf', 'path_to_excel_file.xlsx')
Замените path_to_pdf_file.pdf
на путь к PDF-файлу, который вы хотите преобразовать, и замените `path_to_excel_file.xlsx`` на путь, по которому вы хотите сохранить файл Excel.
tabula-py
: простая оболочка для Tabula, которая может читать таблицы в PDF.
pandas
: мощная библиотека манипулирования данными.
Вы можете установить эти зависимости с помощью pip:
pip3 установить tabula-py pandas
Функция tabula.read_pdf
читает файл PDF и возвращает список таблиц. Каждая таблица представляет собой DataFrame pandas.
Менеджер контекста pd.ExcelWriter
используется для записи в файл Excel.
Внутри контекстного менеджера цикл for перебирает список таблиц. Каждая таблица записывается на отдельный лист в файле Excel с помощью метода DataFrame.to_excel
предоставляемого библиотекой pandas.