Ce script Python utilise les bibliothèques tabula-py
et pandas
pour convertir un fichier PDF en fichier Excel. Chaque tableau du fichier PDF est écrit sur une feuille distincte du fichier Excel.
Ce référentiel est configuré pour utiliser GitHub Codespaces, qui fournit un environnement de développement complet et configurable dans le cloud. Voici comment l'utiliser :
Cliquez sur le bouton Ouvrir dans les espaces de code en haut du référentiel, puis cliquez sur le bouton vert Créer un espace de code. Cela ouvrira le référentiel dans un nouvel espace de code.
Attendez que l'espace de code soit créé. GitHub créera un nouveau Codespace pour ce référentiel et le configurera selon le fichier devcontainer.json
. Cela inclut l'extraction de l'image Docker spécifiée, l'exécution de postCreateCommand
pour installer tabula-py
et pandas
et l'installation des extensions VS Code spécifiées. Ce processus peut prendre quelques minutes.
Ajoutez votre fichier PDF. Une fois le Codespace prêt, ajoutez votre fichier PDF au référentiel. Vous pouvez le faire en faisant glisser et en déposant le fichier dans l'explorateur de fichiers sur le côté gauche de l'écran.
Ajoutez votre fichier Excel vide. Ajoutez un fichier Excel vide au référentiel. Vous pouvez le faire en cliquant avec le bouton droit sur l'explorateur de fichiers et en sélectionnant Nouveau fichier. Nommez le fichier avec l'extension .xlsx
.
Exécutez le script Python. Une fois le Codespace prêt, exécutez la commande suivante dans le terminal :
python pdf_to_excel.py
Le script définit une fonction pdf_to_excel(pdf_file_path, excel_file_path)
, qui lit un fichier PDF et écrit ses tableaux dans un fichier Excel.
Voici comment utiliser cette fonction :
pdf_to_excel('chemin_vers_fichier_pdf.pdf', 'chemin_vers_excel_file.xlsx')
Remplacez path_to_pdf_file.pdf
par le chemin d'accès au fichier PDF que vous souhaitez convertir, et remplacez `path_to_excel_file.xlsx`` par le chemin où vous souhaitez enregistrer le fichier Excel.
tabula-py
: Un simple wrapper pour Tabula, qui peut lire des tableaux dans un PDF.
pandas
: Une puissante bibliothèque de manipulation de données.
Vous pouvez installer ces dépendances avec pip :
pip3 installer les pandas tabula-py
La fonction tabula.read_pdf
lit le fichier PDF et renvoie une liste de tableaux. Chaque table est un DataFrame pandas.
Le gestionnaire de contexte pd.ExcelWriter
est utilisé pour écrire dans le fichier Excel.
Dans le gestionnaire de contexte, une boucle for parcourt la liste des tables. Chaque tableau est écrit sur une feuille distincte dans le fichier Excel avec la méthode DataFrame.to_excel
fournie par la bibliothèque pandas.