Apache Tika(TM) は、既存のパーサー ライブラリを使用して、さまざまなドキュメントからメタデータと構造化テキスト コンテンツを検出および抽出するためのツールキットです。
Tika は Apache Software Foundation のプロジェクトです。
Apache Tika、Tika、Apache、Apache フェザー ロゴ、および Apache Tika プロジェクト ロゴは、Apache Software Foundation の商標です。
Apache Tika スタンドアロン アプリケーションの事前構築済みバイナリは、 https://tika.apache.org/download.html から入手できます。すべての Tika jar の事前構築済みバイナリは、Maven Central またはお気に入りの Maven ミラーからフェッチできます。
Tika 2.X と Java 8 のサポートは、2025 年 4 月にサポート終了 (EOL) に達する予定です。Tika ロードマップ 2.x、3.x 以降を参照してください。
Tika はJava 17に基づいており、Maven 3 ビルド システムを使用します。 NB Docker は tika-integration-tests のテストに使用されます。 Tika 2.5.1 の時点では、Docker がインストールされていない場合、これらのテストはスキップされます。以前の 2.x バージョンでビルドを成功させるには Docker が必要です。
Tika をソースからビルドするには、メイン ディレクトリで次のコマンドを使用します。
mvn clean install
このビルドは、Tika 機能を試すために使用できるスタンドアロンの実行可能な jar など、多数のコンポーネントで構成されています。次のように実行できます。
java -jar tika-app/target/tika-app-*.jar --help
特定のプロジェクト (たとえば、tika-server-standard) をビルドするには:
mvn clean install -am -pl :tika-server-standard
依存関係に脆弱性があることが判明したために、ossindex-maven-plugin がビルドの失敗の原因となっている場合:
mvn clean install -Dossindex.skip
Apache Tika は、Tika モジュールのバージョンを調整し、バージョン管理を簡素化するための部品表(BOM) アーティファクトを提供します。独自のプロジェクトでの収束エラーを回避するには、この bom または Tika の親 pom.xml を依存関係管理セクションにインポートします。
Apache Maven を使用する場合:
< project >
< dependencyManagement >
< dependencies >
< dependency >
< groupId >org.apache.tika</ groupId >
< artifactId >tika-bom</ artifactId >
< version >4.x.y</ version >
< type >pom</ type >
< scope >import</ scope >
</ dependency >
</ dependencies >
</ dependencyManagement >
< dependencies >
< dependency >
< groupId >org.apache.tika</ groupId >
< artifactId >tika-parsers-standard-package</ artifactId >
<!-- version not required since BOM included -->
</ dependency >
</ dependencies >
</ project >
グラドルの場合:
dependencies {
implementation(platform( " org.apache.tika:tika-bom:4.x.y " ))
// version not required since bom (platform in Gradle terms)
implementation( " org.apache.tika:tika-parsers-standard-package " )
}
未定
プル リクエスト テンプレートを参照してください。
注: main
ブランチに対してプル リクエストを開いてください。 2020年9月にmaster
ロックし、使用しなくなりました。
3.0.1 タグを構築すると仮定します。
0. Download and install hub.github.com
1. git clone https://github.com/apache/tika.git
2. cd tika
3. git checkout 3.0.1
4. mvn clean install
タグの日付とタグの構築日の間に新しい脆弱性が発見された場合は、次のものを使用して構築する必要がある場合があります。
4. mvn clean install -Dossindex.skip
ご使用の環境でローカル テストが機能しない場合は、[email protected] でプロジェクトに通知してください。当面の回避策として、次のようにして個々のテストをオフにすることができます。
4. mvn clean install -Dossindex.skip -Dtest=!UnpackerResourceTest#testPDFImages
集合著作物: Copyright 2011 The Apache Software Foundation.
1 つ以上のコントリビューター ライセンス契約に基づいて、Apache Software Foundation (ASF) にライセンスが付与されています。著作権所有権に関する追加情報については、この作品とともに配布される NOTICE ファイルを参照してください。 ASF は、Apache License バージョン 2.0 (「ライセンス」) に基づいてこのファイルをお客様にライセンスします。ライセンスに準拠する場合を除き、このファイルを使用することはできません。ライセンスのコピーは次の場所で入手できます。
https://www.apache.org/licenses/LICENSE-2.0
適用される法律で義務付けられている場合または書面による同意がない限り、ライセンスに基づいて配布されるソフトウェアは、明示または黙示を問わず、いかなる種類の保証や条件もなく、「現状のまま」で配布されます。ライセンスに基づく許可と制限を規定する特定の言語については、ライセンスを参照してください。
Apache Tika には、別個の著作権表示とライセンス条項を持つ多数のサブコンポーネントが含まれています。これらのサブコンポーネントの使用には、LICENSE.txt ファイルに記載されているライセンスの利用規約が適用されます。
このディストリビューションには暗号化ソフトウェアが含まれています。現在居住している国によっては、暗号化ソフトウェアの輸入、所持、使用、および他国への再輸出が制限されている場合があります。暗号化ソフトウェアを使用する前に、暗号化ソフトウェアの輸入、所持、使用、および再輸出に関するあなたの国の法律、規制、政策を確認し、これが許可されているかどうかを確認してください。詳細については、http://www.wassenaar.org/ を参照してください。
米国政府商務省産業安全保障局 (BIS) は、このソフトウェアを輸出商品管理番号 (ECCN) 5D002.C.1 として分類しました。これには、非対称アルゴリズムによる暗号化機能を使用または実行する情報セキュリティ ソフトウェアが含まれます。この Apache Software Foundation ディストリビューションの形式と方法により、オブジェクト コードとソース コードの両方について、ライセンス例外 ENC テクノロジ ソフトウェア無制限 (TSU) 例外 (BIS 輸出管理規則、セクション 740.13 を参照) に基づいて輸出の対象となります。
以下に、含まれる暗号化ソフトウェアの詳細を示します。
Apache Tika は、暗号化された PDF ファイルからテキスト コンテンツとメタデータを抽出するために、Bouncy Castle の汎用暗号化ライブラリを使用します。 Bouncy Castle の詳細については、http://www.bouncycastle.org/ を参照してください。
Tika に関するディスカッションは次のメーリング リストで行われます。
すべてのコード変更に関する通知は、次のメーリング リストに送信されます。
メーリング リストは誰でも公開されており、アーカイブとして公開されています。
[LIST][email protected] (例: user-subscribe@...) にメッセージを送信することで、メーリング リストに登録できます。
購読を解除するには、[LIST][email protected] にメッセージを送信してください。
詳しい手順については、[LIST][email protected] にメッセージを送信してください。
Tika でエラーが発生した場合、または改善や新機能を提案したい場合は、Tika 問題トラッカーにアクセスしてください。ここでは、既知の問題や最近のバグ修正と機能強化に関する最新情報も見つけることができます。
TODO
jceをインストールする必要があります
ビルド中にその他の問題を見つけた場合は、[email protected] リストに電子メールを送信してください。