Apache Tika(TM) 是一个工具包,用于使用现有解析器库从各种文档中检测和提取元数据和结构化文本内容。
Tika 是 Apache 软件基金会的一个项目。
Apache Tika、Tika、Apache、Apache 羽毛徽标和 Apache Tika 项目徽标是 Apache 软件基金会的商标。
Apache Tika 独立应用程序的预构建二进制文件可从 https://tika.apache.org/download.html 获取。所有 Tika jar 的预构建二进制文件都可以从 Maven Central 或您最喜欢的 Maven 镜像获取。
Tika 2.X 和对 Java 8 的支持计划于 2025 年 4 月达到生命周期结束 (EOL)。请参阅 Tika 路线图 2.x、3.x 及更高版本。
Tika 基于Java 17并使用 Maven 3 构建系统。 NB Docker 用于 tika-integration-tests 中的测试。从 Tika 2.5.1 开始,如果未安装 Docker,则会跳过这些测试。要在早期 2.x 版本上成功构建,需要 Docker。
要从源代码构建 Tika,请在主目录中使用以下命令:
mvn clean install
该构建由许多组件组成,包括一个独立的可运行 jar,您可以使用它来尝试 Tika 功能。你可以像这样运行它:
java -jar tika-app/target/tika-app-*.jar --help
构建特定项目(例如 tika-server-standard):
mvn clean install -am -pl :tika-server-standard
如果 ossindex-maven-plugin 由于现在发现依赖项存在漏洞而导致构建失败:
mvn clean install -Dossindex.skip
Apache Tika 提供物料清单(BOM) 工件来调整 Tika 模块版本并简化版本管理。为了避免您自己的项目中出现收敛错误,请在依赖项管理部分中导入此 bom 或 Tika 的父 pom.xml。
如果您使用 Apache Maven:
< project >
< dependencyManagement >
< dependencies >
< dependency >
< groupId >org.apache.tika</ groupId >
< artifactId >tika-bom</ artifactId >
< version >4.x.y</ version >
< type >pom</ type >
< scope >import</ scope >
</ dependency >
</ dependencies >
</ dependencyManagement >
< dependencies >
< dependency >
< groupId >org.apache.tika</ groupId >
< artifactId >tika-parsers-standard-package</ artifactId >
<!-- version not required since BOM included -->
</ dependency >
</ dependencies >
</ project >
对于摇篮:
dependencies {
implementation(platform( " org.apache.tika:tika-bom:4.x.y " ))
// version not required since bom (platform in Gradle terms)
implementation( " org.apache.tika:tika-parsers-standard-package " )
}
待定
请参阅拉取请求模板。
注意:请针对main
分支打开拉取请求。我们于2020年9月锁定了master
,不再使用它。
假设您要构建 3.0.1 标签:
0. Download and install hub.github.com
1. git clone https://github.com/apache/tika.git
2. cd tika
3. git checkout 3.0.1
4. mvn clean install
如果在标签日期和构建标签的日期之间发现了新漏洞,您可能需要使用以下内容进行构建:
4. mvn clean install -Dossindex.skip
如果本地测试在您的环境中不起作用,请通过 [email protected] 通知项目。作为一个直接的解决方法,您可以使用以下命令关闭单独的测试:
4. mvn clean install -Dossindex.skip -Dtest=!UnpackerResourceTest#testPDFImages
集体作品:版权所有 2011 Apache 软件基金会。
根据一项或多项贡献者许可协议获得 Apache Software Foundation (ASF) 的许可。有关版权所有权的其他信息,请参阅随本作品分发的通知文件。 ASF 根据 Apache 许可证 2.0 版(“许可证”)向您授予此文件的许可;除非遵守许可证,否则您不得使用此文件。您可以在以下位置获取许可证副本:
https://www.apache.org/licenses/LICENSE-2.0
除非适用法律要求或书面同意,否则根据许可证分发的软件均按“原样”分发,不带任何明示或暗示的保证或条件。请参阅许可证,了解许可证下管理权限和限制的特定语言。
Apache Tika 包含许多具有单独版权声明和许可条款的子组件。您对这些子组件的使用须遵守 LICENSE.txt 文件中列出的许可证的条款和条件。
该发行版包括加密软件。您当前居住的国家/地区可能对加密软件的进口、拥有、使用和/或再出口到另一个国家/地区有限制。在使用任何加密软件之前,请检查您所在国家/地区有关进口、拥有或使用以及再出口加密软件的法律、法规和政策,以了解是否允许这样做。请参阅 http://www.wassenaar.org/ 了解更多信息。
美国政府商务部工业与安全局 (BIS) 已将此软件分类为出口商品控制编号 (ECCN) 5D002.C.1,其中包括使用非对称算法或执行加密功能的信息安全软件。此 Apache Software Foundation 发行版的形式和方式使其符合目标代码和源代码的许可例外 ENC 技术软件无限制 (TSU) 例外(请参阅 BIS 出口管理条例第 740.13 节)的出口资格。
以下提供了有关所含加密软件的更多详细信息:
Apache Tika 使用 Bouncy Castle 通用加密库从加密的 PDF 文件中提取文本内容和元数据。有关 Bouncy Castle 的更多详细信息,请参阅 http://www.bouncycastle.org/。
关于 Tika 的讨论在以下邮件列表中进行:
所有代码更改的通知都会发送到以下邮件列表:
邮件列表向任何人开放并公开存档。
您可以通过向 [LIST][email protected] 发送消息来订阅邮件列表(例如,user-subscribe@...)。
要取消订阅,请发送消息至 [LIST][email protected]。
如需更多说明,请发送消息至 [LIST][email protected]。
如果您在 Tika 中遇到错误或想要提出改进或新功能建议,请访问 Tika 问题跟踪器。您还可以在那里找到有关已知问题以及最近的错误修复和增强功能的最新信息。
待办事项
需要安装jce
如果您在构建时发现任何其他问题,请发送电子邮件至 [email protected] 列表。