Apache Tika(TM) es un conjunto de herramientas para detectar y extraer metadatos y contenido de texto estructurado de varios documentos utilizando bibliotecas de analizadores existentes.
Tika es un proyecto de la Apache Software Foundation.
Apache Tika, Tika, Apache, el logotipo de la pluma de Apache y el logotipo del proyecto Apache Tika son marcas comerciales de The Apache Software Foundation.
Los archivos binarios prediseñados de las aplicaciones independientes de Apache Tika están disponibles en https://tika.apache.org/download.html. Los binarios prediseñados de todos los frascos de Tika se pueden obtener de Maven Central o de su espejo Maven favorito.
Está previsto que Tika 2.X y la compatibilidad con Java 8 lleguen al final de su vida útil (EOL) en abril de 2025. Consulte Tika Roadmap 2.x, 3.x y posteriores.
Tika está basado en Java 17 y utiliza el sistema de compilación Maven 3. NB Docker se utiliza para pruebas en pruebas de integración de tika. A partir de Tika 2.5.1, si Docker no está instalado, esas pruebas se omiten. Se requiere Docker para una compilación exitosa en versiones 2.x anteriores.
Para compilar Tika desde el código fuente, use el siguiente comando en el directorio principal:
mvn clean install
La compilación consta de varios componentes, incluido un contenedor ejecutable independiente que puede utilizar para probar las funciones de Tika. Puedes ejecutarlo así:
java -jar tika-app/target/tika-app-*.jar --help
Para construir un proyecto específico (por ejemplo, tika-server-standard):
mvn clean install -am -pl :tika-server-standard
Si el complemento ossindex-maven está provocando que la compilación falle porque se ha descubierto que una dependencia tiene una vulnerabilidad:
mvn clean install -Dossindex.skip
Apache Tika proporciona un artefacto de lista de materiales (BOM) para alinear las versiones del módulo Tika y simplificar la gestión de versiones. Para evitar errores de convergencia en su propio proyecto, importe este bom o el pom.xml principal de Tika en su sección de administración de dependencias.
Si usas Apache Maven:
< project >
< dependencyManagement >
< dependencies >
< dependency >
< groupId >org.apache.tika</ groupId >
< artifactId >tika-bom</ artifactId >
< version >4.x.y</ version >
< type >pom</ type >
< scope >import</ scope >
</ dependency >
</ dependencies >
</ dependencyManagement >
< dependencies >
< dependency >
< groupId >org.apache.tika</ groupId >
< artifactId >tika-parsers-standard-package</ artifactId >
<!-- version not required since BOM included -->
</ dependency >
</ dependencies >
</ project >
Para Gradle:
dependencies {
implementation(platform( " org.apache.tika:tika-bom:4.x.y " ))
// version not required since bom (platform in Gradle terms)
implementation( " org.apache.tika:tika-parsers-standard-package " )
}
Por determinar
Consulte la plantilla de solicitud de extracción.
NOTA: abra las solicitudes de extracción en la rama main
. Cerramos master
en septiembre de 2020 y ya no lo usamos.
Supongamos que desea crear la etiqueta 3.0.1:
0. Download and install hub.github.com
1. git clone https://github.com/apache/tika.git
2. cd tika
3. git checkout 3.0.1
4. mvn clean install
Si se ha descubierto una nueva vulnerabilidad entre la fecha de la etiqueta y la fecha en que se crea la etiqueta, es posible que deba crear con:
4. mvn clean install -Dossindex.skip
Si una prueba local no funciona en su entorno, notifique al proyecto a [email protected]. Como solución inmediata, puede desactivar las pruebas individuales con, por ejemplo:
4. mvn clean install -Dossindex.skip -Dtest=!UnpackerResourceTest#testPDFImages
Trabajo colectivo: Copyright 2011 The Apache Software Foundation.
Con licencia de Apache Software Foundation (ASF) según uno o más acuerdos de licencia de colaborador. Consulte el archivo AVISO distribuido con este trabajo para obtener información adicional sobre la propiedad de los derechos de autor. La ASF le otorga la licencia de este archivo bajo la Licencia Apache, Versión 2.0 (la "Licencia"); no puede utilizar este archivo excepto de conformidad con la Licencia. Puede obtener una copia de la Licencia en
https://www.apache.org/licenses/LICENSE-2.0
A menos que lo exija la ley aplicable o se acuerde por escrito, el software distribuido bajo la Licencia se distribuye "TAL CUAL", SIN GARANTÍAS NI CONDICIONES DE NINGÚN TIPO, ya sean expresas o implícitas. Consulte la Licencia para conocer el idioma específico que rige los permisos y limitaciones de la Licencia.
Apache Tika incluye una serie de subcomponentes con avisos de derechos de autor y términos de licencia separados. El uso de estos subcomponentes está sujeto a los términos y condiciones de las licencias enumeradas en el archivo LICENSE.txt.
Esta distribución incluye software criptográfico. El país en el que reside actualmente puede tener restricciones sobre la importación, posesión, uso y/o reexportación a otro país de software de cifrado. ANTES de utilizar cualquier software de cifrado, consulte las leyes, regulaciones y políticas de su país relativas a la importación, posesión o uso y reexportación de software de cifrado para ver si esto está permitido. Consulte http://www.wassenaar.org/ para obtener más información.
La Oficina de Industria y Seguridad (BIS) del Departamento de Comercio del Gobierno de EE. UU. ha clasificado este software como Número de control de productos de exportación (ECCN) 5D002.C.1, que incluye software de seguridad de la información que utiliza o realiza funciones criptográficas con algoritmos asimétricos. La forma y el modo de esta distribución de Apache Software Foundation la hacen elegible para la exportación bajo la excepción de Licencia de Excepción ENC Technology Software Unrestricted (TSU) (consulte las Regulaciones de Administración de Exportaciones de BIS, Sección 740.13) tanto para el código objeto como para el código fuente.
A continuación se proporcionan más detalles sobre el software criptográfico incluido:
Apache Tika utiliza las bibliotecas de cifrado genéricas de Bouncy Castle para extraer contenido de texto y metadatos de archivos PDF cifrados. Consulte http://www.bouncycastle.org/ para obtener más detalles sobre Bouncy Castle.
La discusión sobre Tika se lleva a cabo en las siguientes listas de correo:
Las notificaciones sobre todos los cambios de código se envían a la siguiente lista de correo:
Las listas de correo están abiertas a cualquier persona y archivadas públicamente.
Puede suscribirse a las listas de correo enviando un mensaje a [LISTA][email protected] (por ejemplo, usuario-subscribe@...).
Para cancelar la suscripción, envíe un mensaje a [LISTA][email protected].
Para obtener más instrucciones, envíe un mensaje a [LIST][email protected].
Si encuentra errores en Tika o desea sugerir una mejora o una nueva característica, visite el rastreador de problemas de Tika. Allí también puede encontrar la información más reciente sobre problemas conocidos y mejoras y correcciones de errores recientes.
HACER
Necesito instalar jce
Si encuentra algún otro problema durante la compilación, envíe un correo electrónico a la lista [email protected].