La bibliothèque Apache PDFBox est un outil Java open source permettant de travailler avec des documents PDF. Ce projet permet la création de nouveaux documents PDF, la manipulation de documents existants et la possibilité d'extraire le contenu de documents. PDFBox comprend également plusieurs utilitaires de ligne de commande. PDFBox est publié sous la licence Apache, version 2.0.
PDFBox est un projet de l'Apache Software Foundation.
Vous pouvez télécharger les versions binaires des versions actuellement en cours de développement ou des versions plus anciennes à partir de notre page de téléchargement.
Vous avez besoin de Java 11 (ou supérieur) et de Maven 3 pour créer PDFBox. La commande de build recommandée est :
mvn clean install
La version par défaut compilera les sources Java et regroupera les classes binaires dans des packages jar. Consultez la documentation Maven pour toutes les autres options de construction disponibles.
Il existe différentes manières de nous aider à améliorer PDFBox.
Veuillez suivre les directives sur notre page d'assistance.
Si vous avez des questions sur l'utilisation de PDFBox, posez-les sur la liste de diffusion des utilisateurs. Cela vous permettra d’obtenir l’aide de toute la communauté.
Les exemples PDFBox et le code de test dans les sources fourniront également des informations supplémentaires.
Et des ressources supplémentaires sont disponibles sur des sites tels que Stack Overflow.
Si vous êtes sûr d'avoir trouvé un bug, veuillez signaler le problème dans notre outil de suivi des problèmes.
Consultez Issue Tracker pour obtenir la liste complète des problèmes connus et des fonctionnalités demandées. Certains des problèmes les plus courants sont :
Vous obtenez un texte du type « G38G43G36G51G5 » au lieu de ce à quoi vous vous attendez lorsque vous extrayez du texte. En effet, les caractères constituent un codage interne dénué de sens qui pointe vers des glyphes intégrés dans le document PDF. La seule façon d'accéder au texte est d'utiliser l'OCR. Cela pourrait être une amélioration future.
Vous recevez un message d'erreur du type java.io.IOException: Can't handle font width
cela PEUT être dû au fait que vous n'avez pas le répertoire org/apache/pdfbox/resources dans votre chemin de classe. La solution la plus simple consiste à inclure apache-pdfbox-xxxjar dans votre chemin de classe.
Vous obtenez un texte contenant les caractères corrects, mais dans le mauvais ordre. Cela peut être dû au fait que vous n'avez pas activé le tri. Le texte des fichiers PDF est stocké en morceaux et il n'est pas nécessaire que ces morceaux soient stockés dans l'ordre dans lequel ils sont affichés sur une page. Par défaut, PDFBox ne trie pas le texte.
Œuvre collective : Copyright 2015 The Apache Software Foundation.
Licence accordée à Apache Software Foundation (ASF) dans le cadre d'un ou plusieurs accords de licence de contributeur. Consultez le fichier AVIS distribué avec cette œuvre pour plus d'informations sur la propriété des droits d'auteur. L'ASF vous concède une licence pour ce fichier sous la licence Apache, version 2.0 (la « Licence » ); vous ne pouvez pas utiliser ce fichier sauf en conformité avec la licence. Vous pouvez obtenir une copie de la licence à
https://www.apache.org/licenses/LICENSE-2.0
Sauf disposition contraire de la loi applicable ou accord écrit, le logiciel distribué sous la licence est distribué « TEL QUEL », SANS GARANTIE OU CONDITION D'AUCUNE SORTE, expresse ou implicite. Consultez la licence pour connaître la langue spécifique régissant les autorisations et les limitations en vertu de la licence.
Cette distribution inclut un logiciel cryptographique. Le pays dans lequel vous résidez actuellement peut avoir des restrictions sur l'importation, la possession, l'utilisation et/ou la réexportation vers un autre pays de logiciels de cryptage. AVANT d'utiliser un logiciel de cryptage, veuillez vérifier les lois, réglementations et politiques de votre pays concernant l'importation, la possession ou l'utilisation et la réexportation de logiciels de cryptage, pour voir si cela est autorisé. Voir https://www.wassenaar.org/ pour plus d'informations.
Le Département du Commerce du gouvernement américain, Bureau of Industry and Security (BIS), a classé ce logiciel sous le numéro ECCN (Export Commodity Control Number) 5D002.C.1, qui inclut un logiciel de sécurité des informations utilisant ou exécutant des fonctions cryptographiques avec des algorithmes asymétriques. La forme et les modalités de cette distribution d'Apache Software Foundation la rendent éligible à l'exportation dans le cadre de l'exception de licence ENC Technology Software Unrestricted (TSU) (voir les réglementations administratives sur l'exportation du BIS, section 740.13) pour le code objet et le code source.
Ce qui suit fournit plus de détails sur le logiciel cryptographique inclus :
Apache PDFBox utilise l'architecture de cryptographie Java (JCA) et les bibliothèques Bouncy Castle pour gérer le cryptage des documents PDF.