Apache Tika(TM) 是一個工具包,用於使用現有解析器庫從各種文件中檢測和提取元資料和結構化文字內容。
Tika 是 Apache 軟體基金會的一個專案。
Apache Tika、Tika、Apache、Apache 羽毛標誌和 Apache Tika 專案標誌是 Apache 軟體基金會的商標。
Apache Tika 獨立應用程式的預先建置二進位檔案可從 https://tika.apache.org/download.html 取得。所有 Tika jar 的預先建置二進位檔案都可以從 Maven Central 或您最喜歡的 Maven 鏡像取得。
Tika 2.X 和對 Java 8 的支援計畫於 2025 年 4 月達到生命週期結束 (EOL)。
Tika 基於Java 17並使用 Maven 3 建置系統。 NB Docker 用於 tika-integration-tests 中的測試。從 Tika 2.5.1 開始,如果未安裝 Docker,則會跳過這些測試。要在早期 2.x 版本上成功構建,需要 Docker。
若要從原始程式碼建置 Tika,請在主目錄中使用以下命令:
mvn clean install
這個建置由許多元件組成,包括一個獨立的可運行 jar,您可以使用它來嘗試 Tika 功能。你可以像這樣運行它:
java -jar tika-app/target/tika-app-*.jar --help
建構特定項目(例如 tika-server-standard):
mvn clean install -am -pl :tika-server-standard
如果 ossindex-maven-plugin 由於現在發現依賴項存在漏洞而導致建置失敗:
mvn clean install -Dossindex.skip
Apache Tika 提供物料清單(BOM) 工件來調整 Tika 模組版本並簡化版本管理。為了避免您自己的專案中出現收斂錯誤,請在依賴項管理部分中匯入此 bom 或 Tika 的父 pom.xml。
如果您使用 Apache Maven:
< project >
< dependencyManagement >
< dependencies >
< dependency >
< groupId >org.apache.tika</ groupId >
< artifactId >tika-bom</ artifactId >
< version >4.x.y</ version >
< type >pom</ type >
< scope >import</ scope >
</ dependency >
</ dependencies >
</ dependencyManagement >
< dependencies >
< dependency >
< groupId >org.apache.tika</ groupId >
< artifactId >tika-parsers-standard-package</ artifactId >
<!-- version not required since BOM included -->
</ dependency >
</ dependencies >
</ project >
對於搖籃:
dependencies {
implementation(platform( " org.apache.tika:tika-bom:4.x.y " ))
// version not required since bom (platform in Gradle terms)
implementation( " org.apache.tika:tika-parsers-standard-package " )
}
待定
請參閱拉取請求模板。
注意:請針對main
分支開啟拉取要求。我們在2020年9月鎖定了master
,不再使用它。
假設您要建立 3.0.1 標籤:
0. Download and install hub.github.com
1. git clone https://github.com/apache/tika.git
2. cd tika
3. git checkout 3.0.1
4. mvn clean install
如果在標籤日期和建立標籤的日期之間發現了新漏洞,您可能需要使用以下內容進行建置:
4. mvn clean install -Dossindex.skip
如果本機測試在您的環境中不起作用,請透過 [email protected] 通知專案。作為一個直接的解決方法,您可以使用以下命令關閉單獨的測試:
4. mvn clean install -Dossindex.skip -Dtest=!UnpackerResourceTest#testPDFImages
集體作品:版權所有 2011 Apache 軟體基金會。
根據一項或多項貢獻者授權協議獲得 Apache Software Foundation (ASF) 的許可。有關版權所有權的其他信息,請參閱隨本作品分發的通知文件。 ASF 根據 Apache 授權 2.0 版(「授權」)授予您此文件的授權;除非遵守許可證,否則您不得使用此文件。您可以在以下位置取得許可證副本:
https://www.apache.org/licenses/LICENSE-2.0
除非適用法律要求或書面同意,否則根據許可證分發的軟體均以「原樣」分發,不帶任何明示或暗示的保證或條件。請參閱許可證,了解許可證下管理權限和限制的特定語言。
Apache Tika 包含許多具有單獨版權聲明和授權條款的子元件。您對這些子元件的使用必須遵守 LICENSE.txt 檔案中列出的授權的條款和條件。
該發行版包括加密軟體。您目前居住的國家/地區可能對加密軟體的進口、擁有、使用和/或再出口到另一個國家/地區有限制。在使用任何加密軟體之前,請檢查您所在國家/地區有關進口、擁有或使用以及再出口加密軟體的法律、法規和政策,以了解是否允許這樣做。請參閱 http://www.wassenaar.org/ 以了解更多資訊。
美國政府商務部工業與安全局 (BIS) 已將此軟體分類為出口商品控制編號 (ECCN) 5D002.C.1,其中包括使用非對稱演算法或執行加密功能的資訊安全軟體。此 Apache Software Foundation 發行版的形式和方式使其符合目標代碼和原始代碼的許可例外 ENC 技術軟體無限制 (TSU) 例外(請參閱 BIS 出口管理條例第 740.13 節)的出口資格。
以下提供了有關所含加密軟體的更多詳細資訊:
Apache Tika 使用 Bouncy Castle 通用加密庫從加密的 PDF 檔案中提取文字內容和元資料。有關 Bouncy Castle 的更多詳細信息,請參閱 http://www.bouncycastle.org/。
關於 Tika 的討論在以下郵件列表中進行:
所有程式碼變更的通知都會傳送到以下郵件清單:
郵件清單向任何人開放並公開存檔。
您可以透過向 [LIST][email protected] 發送訊息來訂閱郵件清單(例如,user-subscribe@...)。
若要取消訂閱,請發送訊息至 [LIST][email protected]。
如需更多說明,請發送訊息至 [LIST][email protected]。
如果您在 Tika 中遇到錯誤或想要提出改進或新功能建議,請造訪 Tika 問題追蹤器。您還可以在那裡找到有關已知問題以及最近的錯誤修復和增強功能的最新資訊。
待辦事項
需要安裝jce
如果您在建置時發現任何其他問題,請發送電子郵件至 [email protected] 清單。