Nous comprenons le PDF
Pdfminer.six est un fork géré par la communauté du PDFMiner original. Il s'agit d'un outil permettant d'extraire des informations à partir de documents PDF. Il se concentre sur l’obtention et l’analyse de données textuelles. Pdfminer.six extrait le texte d'une page directement à partir du code source du PDF. Il peut également être utilisé pour obtenir l’emplacement exact, la police ou la couleur du texte.
Il est construit de manière modulaire de telle sorte que chaque composant de pdfminer.six puisse être remplacé facilement. Vous pouvez implémenter votre propre interpréteur ou dispositif de rendu qui utilise la puissance de pdfminer.six à d'autres fins que l'analyse de texte.
Consultez la documentation complète sur Read the Docs.
Installez Python 3.8 ou version ultérieure.
Installez pdfminer.six.
pip install pdfminer.six
(Facultatif) installez des dépendances supplémentaires pour extraire des images.
pip install ' pdfminer.six[image] '
Utilisez l'interface de ligne de commande pour extraire le texte du PDF.
pdf2txt.py example.pdf
Ou utilisez-le avec Python.
from pdfminer . high_level import extract_text
text = extract_text ( "example.pdf" )
print ( text )
Assurez-vous de lire les directives de contribution.
Ce référentiel inclut le code de pyHanko
; la licence originale a été incluse ici.