La biblioteca Apache PDFBox es una herramienta Java de código abierto para trabajar con documentos PDF. Este proyecto permite la creación de nuevos documentos PDF, la manipulación de documentos existentes y la capacidad de extraer contenido de los documentos. PDFBox también incluye varias utilidades de línea de comandos. PDFBox se publica bajo la licencia Apache, versión 2.0.
PDFBox es un proyecto de la Apache Software Foundation.
Puede descargar versiones binarias para versiones actualmente en desarrollo o versiones anteriores desde nuestra página de descargas.
Necesita Java 11 (o superior) y Maven 3 para crear PDFBox. El comando de compilación recomendado es:
mvn clean install
La compilación predeterminada compilará las fuentes de Java y empaquetará las clases binarias en paquetes jar. Consulte la documentación de Maven para conocer todas las demás opciones de compilación disponibles.
Hay varias formas de ayudarnos a mejorar PDFBox.
Siga las pautas en nuestra página de soporte.
Si tiene preguntas sobre cómo usar PDFBox, pregunte en la Lista de correo de usuarios. Esto le brindará ayuda de toda la comunidad.
Los ejemplos de PDFBox y el código de prueba en las fuentes también proporcionarán información adicional.
Y hay recursos adicionales disponibles en sitios como Stack Overflow.
Si está seguro de haber encontrado un error, informe el problema en nuestro Rastreador de problemas.
Consulte el Rastreador de problemas para obtener la lista completa de problemas conocidos y funciones solicitadas. Algunos de los problemas más comunes son:
Obtiene un texto como "G38G43G36G51G5" en lugar de lo que espera cuando extrae texto. Esto se debe a que los caracteres son una codificación interna sin sentido que apunta a glifos incrustados en el documento PDF. La única forma de acceder al texto es utilizar OCR. Esta puede ser una mejora futura.
Recibe un mensaje de error como java.io.IOException: Can't handle font width
Esto PODRÍA deberse al hecho de que no tiene el directorio org/apache/pdfbox/resources en su classpath. La solución más sencilla es incluir apache-pdfbox-xxxjar en su classpath.
Obtienes texto que tiene los caracteres correctos, pero en el orden incorrecto. Esto podría deberse a que no ha habilitado la clasificación. El texto de los archivos PDF se almacena en fragmentos y no es necesario almacenarlos en el orden en que se muestran en una página. De forma predeterminada, PDFBox no ordena el texto.
Trabajo colectivo: Copyright 2015 The Apache Software Foundation.
Con licencia de Apache Software Foundation (ASF) según uno o más acuerdos de licencia de colaborador. Consulte el archivo AVISO distribuido con este trabajo para obtener información adicional sobre la propiedad de los derechos de autor. La ASF le otorga la licencia de este archivo bajo la Licencia Apache, Versión 2.0 (la "Licencia"); no puede utilizar este archivo excepto de conformidad con la Licencia. Puede obtener una copia de la Licencia en
https://www.apache.org/licenses/LICENSE-2.0
A menos que lo exija la ley aplicable o se acuerde por escrito, el software distribuido bajo la Licencia se distribuye "TAL CUAL", SIN GARANTÍAS NI CONDICIONES DE NINGÚN TIPO, ya sean expresas o implícitas. Consulte la Licencia para conocer el idioma específico que rige los permisos y limitaciones de la Licencia.
Esta distribución incluye software criptográfico. El país en el que reside actualmente puede tener restricciones sobre la importación, posesión, uso y/o reexportación a otro país de software de cifrado. ANTES de utilizar cualquier software de cifrado, consulte las leyes, regulaciones y políticas de su país relativas a la importación, posesión o uso y reexportación de software de cifrado para ver si esto está permitido. Consulte https://www.wassenaar.org/ para obtener más información.
La Oficina de Industria y Seguridad (BIS) del Departamento de Comercio del Gobierno de EE. UU. ha clasificado este software como Número de control de productos de exportación (ECCN) 5D002.C.1, que incluye software de seguridad de la información que utiliza o realiza funciones criptográficas con algoritmos asimétricos. La forma y el modo de esta distribución de Apache Software Foundation la hacen elegible para la exportación bajo la excepción de Licencia de Excepción ENC Technology Software Unrestricted (TSU) (consulte las Regulaciones de Administración de Exportaciones de BIS, Sección 740.13) tanto para el código objeto como para el código fuente.
A continuación se proporcionan más detalles sobre el software criptográfico incluido:
Apache PDFBox utiliza la arquitectura de criptografía Java (JCA) y las bibliotecas Bouncy Castle para manejar el cifrado en documentos PDF.