Die Apache PDFBox-Bibliothek ist ein Open-Source-Java-Tool zum Arbeiten mit PDF-Dokumenten. Dieses Projekt ermöglicht die Erstellung neuer PDF-Dokumente, die Bearbeitung vorhandener Dokumente und die Möglichkeit, Inhalte aus Dokumenten zu extrahieren. PDFBox enthält außerdem mehrere Befehlszeilen-Dienstprogramme. PDFBox wird unter der Apache-Lizenz, Version 2.0, veröffentlicht.
PDFBox ist ein Projekt der Apache Software Foundation.
Sie können Binärversionen für Versionen, die sich derzeit in der Entwicklung befinden, oder für ältere Versionen von unserer Download-Seite herunterladen.
Sie benötigen Java 11 (oder höher) und Maven 3, um PDFBox zu erstellen. Der empfohlene Build-Befehl lautet:
mvn clean install
Der Standard-Build kompiliert die Java-Quellen und verpackt die Binärklassen in JAR-Pakete. Alle anderen verfügbaren Build-Optionen finden Sie in der Maven-Dokumentation.
Es gibt verschiedene Möglichkeiten, uns bei der Verbesserung von PDFBox zu helfen.
Bitte befolgen Sie die Richtlinien auf unserer Support-Seite.
Wenn Sie Fragen zur Verwendung von PDFBox haben, wenden Sie sich an die Benutzer-Mailingliste. Dadurch erhalten Sie Hilfe von der gesamten Community.
Zusätzliche Informationen liefern auch die PDFBox-Beispiele und der Testcode in den Quellen.
Darüber hinaus stehen auf Websites wie Stack Overflow zusätzliche Ressourcen zur Verfügung.
Wenn Sie sicher sind, dass Sie einen Fehler gefunden haben, melden Sie das Problem bitte in unserem Issue Tracker.
Die vollständige Liste der bekannten Probleme und angeforderten Funktionen finden Sie im Issue Tracker. Einige der häufigsten Probleme sind:
Sie erhalten einen Text wie „G38G43G36G51G5“ statt dem, was Sie beim Extrahieren von Text erwarten. Dies liegt daran, dass es sich bei den Zeichen um eine bedeutungslose interne Kodierung handelt, die auf Glyphen verweist, die im PDF-Dokument eingebettet sind. Die einzige Möglichkeit, auf den Text zuzugreifen, ist die Verwendung von OCR. Dies könnte eine zukünftige Verbesserung sein.
Sie erhalten eine Fehlermeldung wie java.io.IOException: Can't handle font width
Dies könnte daran liegen, dass Sie das Verzeichnis org/apache/pdfbox/resources nicht in Ihrem Klassenpfad haben. Die einfachste Lösung besteht darin , apache-pdfbox-xxxjar in Ihren Klassenpfad aufzunehmen.
Sie erhalten Text mit den richtigen Zeichen, aber in der falschen Reihenfolge. Dies könnte daran liegen, dass Sie die Sortierung nicht aktiviert haben. Der Text in PDF-Dateien wird in Blöcken gespeichert und die Blöcke müssen nicht in der Reihenfolge gespeichert werden, in der sie auf einer Seite angezeigt werden. Standardmäßig sortiert PDFBox den Text nicht.
Gemeinschaftswerk: Copyright 2015 The Apache Software Foundation.
Lizenziert an die Apache Software Foundation (ASF) im Rahmen einer oder mehrerer Mitwirkender-Lizenzvereinbarungen. Weitere Informationen zum Urheberrecht finden Sie in der mit diesem Werk verteilten HINWEIS-Datei. Die ASF lizenziert Ihnen diese Datei unter der Apache-Lizenz, Version 2.0 (die „Lizenz“); Sie dürfen diese Datei nur in Übereinstimmung mit der Lizenz verwenden. Eine Kopie der Lizenz erhalten Sie unter
https://www.apache.org/licenses/LICENSE-2.0
Sofern nicht durch geltendes Recht vorgeschrieben oder schriftlich vereinbart, wird die im Rahmen der Lizenz vertriebene Software „WIE BESEHEN“ und OHNE GEWÄHRLEISTUNGEN ODER BEDINGUNGEN JEGLICHER ART, weder ausdrücklich noch stillschweigend, vertrieben. Die spezifische Sprache, die die Berechtigungen und Einschränkungen im Rahmen der Lizenz regelt, finden Sie in der Lizenz.
Diese Distribution umfasst kryptografische Software. In dem Land, in dem Sie derzeit wohnen, gelten möglicherweise Beschränkungen für die Einfuhr, den Besitz, die Verwendung und/oder die Wiederausfuhr von Verschlüsselungssoftware in ein anderes Land. Bevor Sie Verschlüsselungssoftware verwenden, prüfen Sie bitte die Gesetze, Vorschriften und Richtlinien Ihres Landes bezüglich der Einfuhr, des Besitzes oder der Verwendung und Wiederausfuhr von Verschlüsselungssoftware, um festzustellen, ob dies zulässig ist. Weitere Informationen finden Sie unter https://www.wassenaar.org/.
Das US-Handelsministerium, Bureau of Industry and Security (BIS), hat diese Software als Export Commodity Control Number (ECCN) 5D002.C.1 klassifiziert, was Informationssicherheitssoftware umfasst, die kryptografische Funktionen mit asymmetrischen Algorithmen verwendet oder ausführt. Die Form und Art dieser Apache Software Foundation-Distribution ermöglicht den Export im Rahmen der Lizenzausnahme ENC Technology Software Unrestricted (TSU) (siehe BIS Export Administration Regulations, Abschnitt 740.13) sowohl für Objektcode als auch für Quellcode.
Im Folgenden finden Sie weitere Einzelheiten zur mitgelieferten kryptografischen Software:
Apache PDFBox verwendet die Java Cryptography Architecture (JCA) und die Bouncy Castle-Bibliotheken für die Verschlüsselung in PDF-Dokumenten.