Wir ergründen PDF
Pdfminer.six ist ein von der Community gepflegter Zweig des ursprünglichen PDFMiner. Es handelt sich um ein Tool zum Extrahieren von Informationen aus PDF-Dokumenten. Der Schwerpunkt liegt auf der Erfassung und Analyse von Textdaten. Pdfminer.six extrahiert den Text einer Seite direkt aus dem Quellcode des PDF. Es kann auch verwendet werden, um die genaue Position, Schriftart oder Farbe des Textes zu ermitteln.
Es ist modular aufgebaut, sodass jede Komponente von pdfminer.six einfach ausgetauscht werden kann. Sie können Ihren eigenen Interpreter oder Ihr eigenes Rendering-Gerät implementieren, das die Leistungsfähigkeit von pdfminer.six für andere Zwecke als die Textanalyse nutzt.
Sehen Sie sich die vollständige Dokumentation unter „Read the Docs“ an.
Installieren Sie Python 3.8 oder neuer.
Installieren Sie pdfminer.six.
pip install pdfminer.six
(Optional) Installieren Sie zusätzliche Abhängigkeiten zum Extrahieren von Bildern.
pip install ' pdfminer.six[image] '
Verwenden Sie die Befehlszeilenschnittstelle, um Text aus PDF zu extrahieren.
pdf2txt.py example.pdf
Oder verwenden Sie es mit Python.
from pdfminer . high_level import extract_text
text = extract_text ( "example.pdf" )
print ( text )
Lesen Sie unbedingt die Beitragsrichtlinien.
Dieses Repository enthält Code von pyHanko
; Die Originallizenz wurde hier eingefügt.