Apache Tika(TM) est une boîte à outils permettant de détecter et d'extraire des métadonnées et du contenu textuel structuré à partir de divers documents à l'aide de bibliothèques d'analyseurs existantes.
Tika est un projet de l'Apache Software Foundation.
Apache Tika, Tika, Apache, le logo en plume Apache et le logo du projet Apache Tika sont des marques commerciales de The Apache Software Foundation.
Les binaires prédéfinis des applications autonomes Apache Tika sont disponibles sur https://tika.apache.org/download.html . Les binaires prédéfinis de tous les pots Tika peuvent être récupérés à partir de Maven Central ou de votre miroir Maven préféré.
Tika 2.X et la prise en charge de Java 8 devraient atteindre la fin de vie (EOL) en avril 2025. Voir Tika Roadmap 2.x, 3.x et au-delà.
Tika est basé sur Java 17 et utilise le système de build Maven 3. NB Docker est utilisé pour les tests dans les tests d'intégration tika. Depuis Tika 2.5.1, si Docker n'est pas installé, ces tests sont ignorés. Docker est requis pour une construction réussie sur les versions 2.x antérieures.
Pour construire Tika à partir des sources, utilisez la commande suivante dans le répertoire principal :
mvn clean install
La version se compose d'un certain nombre de composants, y compris un pot exécutable autonome que vous pouvez utiliser pour essayer les fonctionnalités de Tika. Vous pouvez l'exécuter comme ceci :
java -jar tika-app/target/tika-app-*.jar --help
Pour créer un projet spécifique (par exemple, tika-server-standard) :
mvn clean install -am -pl :tika-server-standard
Si le plugin ossindex-maven-plugin provoque l'échec de la construction car une dépendance a maintenant été découverte comme présentant une vulnérabilité :
mvn clean install -Dossindex.skip
Apache Tika fournit un artefact de nomenclature (BOM) pour aligner les versions du module Tika et simplifier la gestion des versions. Pour éviter les erreurs de convergence dans votre propre projet, importez ce bom ou le pom.xml parent de Tika dans votre section de gestion des dépendances.
Si vous utilisez Apache Maven :
< project >
< dependencyManagement >
< dependencies >
< dependency >
< groupId >org.apache.tika</ groupId >
< artifactId >tika-bom</ artifactId >
< version >4.x.y</ version >
< type >pom</ type >
< scope >import</ scope >
</ dependency >
</ dependencies >
</ dependencyManagement >
< dependencies >
< dependency >
< groupId >org.apache.tika</ groupId >
< artifactId >tika-parsers-standard-package</ artifactId >
<!-- version not required since BOM included -->
</ dependency >
</ dependencies >
</ project >
Pour Gradle :
dependencies {
implementation(platform( " org.apache.tika:tika-bom:4.x.y " ))
// version not required since bom (platform in Gradle terms)
implementation( " org.apache.tika:tika-parsers-standard-package " )
}
À déterminer
Voir le modèle de demande de tirage.
REMARQUE : veuillez ouvrir des demandes d'extraction sur la branche main
. Nous avons verrouillé master
en septembre 2020 et ne l'utilisons plus.
Supposons que vous souhaitiez créer la balise 3.0.1 :
0. Download and install hub.github.com
1. git clone https://github.com/apache/tika.git
2. cd tika
3. git checkout 3.0.1
4. mvn clean install
Si une nouvelle vulnérabilité a été découverte entre la date de la balise et la date à laquelle vous créez la balise, vous devrez peut-être construire avec :
4. mvn clean install -Dossindex.skip
Si un test local ne fonctionne pas dans votre environnement, veuillez en informer le projet à [email protected]. Comme solution de contournement immédiate, vous pouvez désactiver les tests individuels avec, par exemple :
4. mvn clean install -Dossindex.skip -Dtest=!UnpackerResourceTest#testPDFImages
Ouvrage collectif : Copyright 2011 The Apache Software Foundation.
Licence accordée à Apache Software Foundation (ASF) dans le cadre d'un ou plusieurs accords de licence de contributeur. Consultez le fichier AVIS distribué avec cette œuvre pour plus d'informations sur la propriété des droits d'auteur. L'ASF vous accorde une licence pour ce fichier sous la licence Apache, version 2.0 (la « Licence » ); vous ne pouvez pas utiliser ce fichier sauf en conformité avec la licence. Vous pouvez obtenir une copie de la licence à
https://www.apache.org/licenses/LICENSE-2.0
Sauf disposition contraire de la loi applicable ou accord écrit, le logiciel distribué sous la licence est distribué « TEL QUEL », SANS GARANTIE OU CONDITION D'AUCUNE SORTE, expresse ou implicite. Consultez la licence pour connaître la langue spécifique régissant les autorisations et les limitations en vertu de la licence.
Apache Tika comprend un certain nombre de sous-composants avec des avis de droits d'auteur et des conditions de licence distincts. Votre utilisation de ces sous-composants est soumise aux termes et conditions des licences répertoriées dans le fichier LICENSE.txt.
Cette distribution inclut un logiciel cryptographique. Le pays dans lequel vous résidez actuellement peut avoir des restrictions sur l'importation, la possession, l'utilisation et/ou la réexportation vers un autre pays de logiciels de cryptage. AVANT d'utiliser un logiciel de cryptage, veuillez vérifier les lois, réglementations et politiques de votre pays concernant l'importation, la possession ou l'utilisation et la réexportation de logiciels de cryptage, pour voir si cela est autorisé. Voir http://www.wassenaar.org/ pour plus d'informations.
Le Département du Commerce du gouvernement américain, Bureau of Industry and Security (BIS), a classé ce logiciel sous le numéro ECCN (Export Commodity Control Number) 5D002.C.1, qui inclut un logiciel de sécurité des informations utilisant ou exécutant des fonctions cryptographiques avec des algorithmes asymétriques. La forme et les modalités de cette distribution d'Apache Software Foundation la rendent éligible à l'exportation dans le cadre de l'exception de licence ENC Technology Software Unrestricted (TSU) (voir les réglementations administratives sur l'exportation du BIS, section 740.13) pour le code objet et le code source.
Ce qui suit fournit plus de détails sur le logiciel cryptographique inclus :
Apache Tika utilise les bibliothèques de chiffrement génériques Bouncy Castle pour extraire le contenu textuel et les métadonnées des fichiers PDF chiffrés. Voir http://www.bouncycastle.org/ pour plus de détails sur Bouncy Castle.
Les discussions sur Tika ont lieu sur les listes de diffusion suivantes :
Les notifications de tous les changements de code sont envoyées à la liste de diffusion suivante :
Les listes de diffusion sont ouvertes à tous et archivées publiquement.
Vous pouvez vous abonner aux listes de diffusion en envoyant un message à [LIST][email protected] (par exemple, user-subscribe@...).
Pour vous désinscrire, envoyez un message à [LIST][email protected].
Pour plus d'instructions, envoyez un message à [LIST][email protected].
Si vous rencontrez des erreurs dans Tika ou souhaitez suggérer une amélioration ou une nouvelle fonctionnalité, veuillez visiter le suivi des problèmes Tika. Vous y trouverez également les dernières informations sur les problèmes connus ainsi que les corrections de bogues et améliorations récentes.
FAIRE
Besoin d'installer jce
Si vous rencontrez d'autres problèmes lors de la construction, veuillez envoyer un e-mail à la liste [email protected].