Apache Tika(TM) ist ein Toolkit zum Erkennen und Extrahieren von Metadaten und strukturierten Textinhalten aus verschiedenen Dokumenten mithilfe vorhandener Parser-Bibliotheken.
Tika ist ein Projekt der Apache Software Foundation.
Apache Tika, Tika, Apache, das Apache-Feder-Logo und das Apache-Tika-Projektlogo sind Marken der Apache Software Foundation.
Vorgefertigte Binärdateien der eigenständigen Apache Tika-Anwendungen sind unter https://tika.apache.org/download.html verfügbar. Vorgefertigte Binärdateien aller Tika-Gläser können von Maven Central oder Ihrem bevorzugten Maven-Spiegel abgerufen werden.
Tika 2.X und die Unterstützung für Java 8 sollen im April 2025 das End of Life (EOL) erreichen. Siehe Tika Roadmap 2.x, 3.x und darüber hinaus.
Tika basiert auf Java 17 und nutzt das Maven 3 Build-System. Hinweis: Docker wird für Tests in Tika-Integrationstests verwendet. Ab Tika 2.5.1 werden diese Tests übersprungen, wenn Docker nicht installiert ist. Für einen erfolgreichen Build auf früheren 2.x-Versionen ist Docker erforderlich.
Um Tika aus dem Quellcode zu erstellen, verwenden Sie den folgenden Befehl im Hauptverzeichnis:
mvn clean install
Der Build besteht aus einer Reihe von Komponenten, einschließlich einer eigenständigen ausführbaren JAR-Datei, mit der Sie Tika-Funktionen ausprobieren können. Sie können es so ausführen:
java -jar tika-app/target/tika-app-*.jar --help
So erstellen Sie ein bestimmtes Projekt (z. B. tika-server-standard):
mvn clean install -am -pl :tika-server-standard
Wenn das Ossindex-Maven-Plugin dazu führt, dass der Build fehlschlägt, weil nun festgestellt wurde, dass eine Abhängigkeit eine Schwachstelle aufweist:
mvn clean install -Dossindex.skip
Apache Tika stellt ein Bill of Material (BOM)-Artefakt bereit, um Tika-Modulversionen auszurichten und die Versionsverwaltung zu vereinfachen. Um Konvergenzfehler in Ihrem eigenen Projekt zu vermeiden, importieren Sie diese BOM oder Tikas übergeordnete pom.xml in Ihren Abschnitt zur Abhängigkeitsverwaltung.
Wenn Sie Apache Maven verwenden:
< project >
< dependencyManagement >
< dependencies >
< dependency >
< groupId >org.apache.tika</ groupId >
< artifactId >tika-bom</ artifactId >
< version >4.x.y</ version >
< type >pom</ type >
< scope >import</ scope >
</ dependency >
</ dependencies >
</ dependencyManagement >
< dependencies >
< dependency >
< groupId >org.apache.tika</ groupId >
< artifactId >tika-parsers-standard-package</ artifactId >
<!-- version not required since BOM included -->
</ dependency >
</ dependencies >
</ project >
Für Gradle:
dependencies {
implementation(platform( " org.apache.tika:tika-bom:4.x.y " ))
// version not required since bom (platform in Gradle terms)
implementation( " org.apache.tika:tika-parsers-standard-package " )
}
Noch offen
Sehen Sie sich die Pull-Request-Vorlage an.
HINWEIS: Bitte öffnen Sie Pull-Anfragen für den main
. Wir haben master
im September 2020 gesperrt und verwenden es nicht mehr.
Nehmen wir an, Sie möchten das 3.0.1-Tag erstellen:
0. Download and install hub.github.com
1. git clone https://github.com/apache/tika.git
2. cd tika
3. git checkout 3.0.1
4. mvn clean install
Wenn zwischen dem Datum des Tags und dem Datum, an dem Sie das Tag erstellen, eine neue Schwachstelle entdeckt wurde, müssen Sie möglicherweise Folgendes erstellen:
4. mvn clean install -Dossindex.skip
Wenn ein lokaler Test in Ihrer Umgebung nicht funktioniert, benachrichtigen Sie bitte das Projekt unter [email protected]. Als sofortige Problemumgehung können Sie einzelne Tests deaktivieren, z. B. mit:
4. mvn clean install -Dossindex.skip -Dtest=!UnpackerResourceTest#testPDFImages
Gemeinschaftswerk: Copyright 2011 The Apache Software Foundation.
Lizenziert an die Apache Software Foundation (ASF) im Rahmen einer oder mehrerer Mitwirkender-Lizenzvereinbarungen. Weitere Informationen zum Urheberrecht finden Sie in der mit diesem Werk verteilten HINWEIS-Datei. Die ASF lizenziert Ihnen diese Datei unter der Apache-Lizenz, Version 2.0 (die „Lizenz“); Sie dürfen diese Datei nur in Übereinstimmung mit der Lizenz verwenden. Eine Kopie der Lizenz erhalten Sie unter
https://www.apache.org/licenses/LICENSE-2.0
Sofern nicht durch geltendes Recht vorgeschrieben oder schriftlich vereinbart, wird die im Rahmen der Lizenz vertriebene Software „WIE BESEHEN“ und OHNE GEWÄHRLEISTUNGEN ODER BEDINGUNGEN JEGLICHER ART, weder ausdrücklich noch stillschweigend, vertrieben. Die spezifische Sprache, die die Berechtigungen und Einschränkungen im Rahmen der Lizenz regelt, finden Sie in der Lizenz.
Apache Tika enthält eine Reihe von Unterkomponenten mit separaten Urheberrechtshinweisen und Lizenzbedingungen. Ihre Nutzung dieser Unterkomponenten unterliegt den Bedingungen der in der Datei LICENSE.txt aufgeführten Lizenzen.
Diese Distribution umfasst kryptografische Software. Das Land, in dem Sie sich derzeit aufhalten, unterliegt möglicherweise Beschränkungen hinsichtlich der Einfuhr, des Besitzes, der Verwendung und/oder der Wiederausfuhr von Verschlüsselungssoftware in ein anderes Land. Bevor Sie Verschlüsselungssoftware verwenden, prüfen Sie bitte die Gesetze, Vorschriften und Richtlinien Ihres Landes bezüglich der Einfuhr, des Besitzes oder der Verwendung und Wiederausfuhr von Verschlüsselungssoftware, um festzustellen, ob dies zulässig ist. Weitere Informationen finden Sie unter http://www.wassenaar.org/.
Das US-Handelsministerium, Bureau of Industry and Security (BIS), hat diese Software als Export Commodity Control Number (ECCN) 5D002.C.1 klassifiziert, was Informationssicherheitssoftware umfasst, die kryptografische Funktionen mit asymmetrischen Algorithmen verwendet oder ausführt. Die Form und Art dieser Apache Software Foundation-Distribution ermöglicht den Export im Rahmen der Lizenzausnahme ENC Technology Software Unrestricted (TSU) (siehe BIS Export Administration Regulations, Abschnitt 740.13) sowohl für Objektcode als auch für Quellcode.
Im Folgenden finden Sie weitere Einzelheiten zur mitgelieferten kryptografischen Software:
Apache Tika verwendet die generischen Verschlüsselungsbibliotheken von Bouncy Castle zum Extrahieren von Textinhalten und Metadaten aus verschlüsselten PDF-Dateien. Weitere Informationen zur Hüpfburg finden Sie unter http://www.bouncycastle.org/.
Diskussionen über Tika finden auf folgenden Mailinglisten statt:
Benachrichtigungen zu allen Codeänderungen werden an die folgende Mailingliste gesendet:
Die Mailinglisten sind für jedermann zugänglich und öffentlich archiviert.
Sie können die Mailinglisten abonnieren, indem Sie eine Nachricht an [LIST][email protected] senden (z. B. user-subscribe@...).
Um sich abzumelden, senden Sie eine Nachricht an [LIST][email protected].
Für weitere Anweisungen senden Sie eine Nachricht an [LIST][email protected].
Wenn Sie auf Fehler in Tika stoßen oder eine Verbesserung oder eine neue Funktion vorschlagen möchten, besuchen Sie bitte den Tika-Issue-Tracker. Dort finden Sie auch die neuesten Informationen zu bekannten Problemen sowie aktuelle Fehlerbehebungen und Verbesserungen.
TODO
JCE muss installiert werden
Wenn Sie beim Erstellen weitere Probleme feststellen, senden Sie bitte eine E-Mail an die Liste [email protected].