Este script de Python utiliza las bibliotecas tabula-py
y pandas
para convertir un archivo PDF en un archivo de Excel. Cada tabla del archivo PDF se escribe en una hoja separada del archivo Excel.
Este repositorio está configurado para usar GitHub Codespaces, que proporciona un entorno de desarrollo completo y configurable en la nube. Aquí se explica cómo usarlo:
Haga clic en el botón Abrir en Codespaces en la parte superior del repositorio, luego haga clic en el botón verde Crear Codespace. Esto abrirá el repositorio en un nuevo Codespace.
Espere a que se cree el Codespace. GitHub creará un nuevo Codespace para este repositorio y lo configurará de acuerdo con el archivo devcontainer.json
. Esto incluye extraer la imagen de Docker especificada, ejecutar postCreateCommand
para instalar tabula-py
y pandas
e instalar las extensiones de VS Code especificadas. Este proceso puede tardar unos minutos.
Añade tu archivo PDF. Una vez que Codespace esté listo, agregue su archivo PDF al repositorio. Puede hacerlo arrastrando y soltando el archivo en el explorador de archivos en el lado izquierdo de la pantalla.
Agregue su archivo de Excel vacío. Agregue un archivo de Excel vacío al repositorio. Puede hacer esto haciendo clic derecho en el explorador de archivos y seleccionando Nuevo archivo. Nombra el archivo con la extensión .xlsx
.
Ejecute el script de Python. Una vez que Codespace esté listo, ejecute el siguiente comando en la terminal:
Python pdf_to_excel.py
El script define una función pdf_to_excel(pdf_file_path, excel_file_path)
, que lee un archivo PDF y escribe sus tablas en un archivo Excel.
Así es como puede utilizar esta función:
pdf_to_excel('ruta_al_archivo_pdf.pdf', 'ruta_al_archivo_excel.xlsx')
Reemplace path_to_pdf_file.pdf
con la ruta al archivo PDF que desea convertir y reemplace `path_to_excel_file.xlsx`` con la ruta donde desea guardar el archivo de Excel.
tabula-py
: un contenedor simple para Tabula, que puede leer tablas en un PDF.
pandas
: una poderosa biblioteca de manipulación de datos.
Puedes instalar estas dependencias con pip:
pip3 instala pandas tabula-py
La función tabula.read_pdf
lee el archivo PDF y devuelve una lista de tablas. Cada tabla es un DataFrame de pandas.
El administrador de contexto pd.ExcelWriter
se utiliza para escribir en el archivo de Excel.
Dentro del administrador de contexto, un bucle for itera sobre la lista de tablas. Cada tabla se escribe en una hoja separada en el archivo de Excel con el método DataFrame.to_excel
proporcionado por la biblioteca pandas.