Este script Python usa as bibliotecas tabula-py
e pandas
para converter um arquivo PDF em um arquivo Excel. Cada tabela no arquivo PDF é gravada em uma planilha separada no arquivo Excel.
Este repositório está configurado para usar GitHub Codespaces, que fornece um ambiente de desenvolvimento completo e configurável na nuvem. Veja como usá-lo:
Clique no botão Abrir em Codespaces na parte superior do repositório e, em seguida, clique no botão verde Criar Codespace. Isso abrirá o repositório em um novo Codespace.
Aguarde a criação do Codespace. O GitHub criará um novo Codespace para este repositório e o configurará de acordo com o arquivo devcontainer.json
. Isso inclui extrair a imagem Docker especificada, executar postCreateCommand
para instalar tabula-py
e pandas
e instalar as extensões especificadas do VS Code. Este processo pode demorar alguns minutos.
Adicione seu arquivo PDF. Assim que o Codespace estiver pronto, adicione seu arquivo PDF ao repositório. Você pode fazer isso arrastando e soltando o arquivo no explorador de arquivos no lado esquerdo da tela.
Adicione seu arquivo Excel vazio. Adicione um arquivo Excel vazio ao repositório. Você pode fazer isso clicando com o botão direito no explorador de arquivos e selecionando Novo arquivo. Nomeie o arquivo com a extensão .xlsx
.
Execute o script Python. Quando o Codespace estiver pronto, execute o seguinte comando no terminal:
python pdf_to_excel.py
O script define uma função pdf_to_excel(pdf_file_path, excel_file_path)
, que lê um arquivo PDF e grava suas tabelas em um arquivo Excel.
Veja como você pode usar esta função:
pdf_to_excel('caminho_para_arquivo_pdf.pdf', 'caminho_para_arquivo_excel.xlsx')
Substitua path_to_pdf_file.pdf
pelo caminho para o arquivo PDF que você deseja converter e substitua `path_to_excel_file.xlsx`` pelo caminho onde você deseja salvar o arquivo Excel.
tabula-py
: Um wrapper simples para Tabula, que pode ler tabelas em um PDF.
pandas
: uma poderosa biblioteca de manipulação de dados.
Você pode instalar essas dependências com pip:
pip3 instalar tabula-py pandas
A função tabula.read_pdf
lê o arquivo PDF e retorna uma lista de tabelas. Cada tabela é um DataFrame do pandas.
O gerenciador de contexto pd.ExcelWriter
é usado para gravar no arquivo Excel.
Dentro do gerenciador de contexto, um loop for itera sobre a lista de tabelas. Cada tabela é gravada em uma planilha separada no arquivo Excel com o método DataFrame.to_excel
fornecido pela biblioteca pandas.