Apache Tika(TM) — это набор инструментов для обнаружения и извлечения метаданных и структурированного текстового содержимого из различных документов с использованием существующих библиотек синтаксического анализатора.
Tika — проект Apache Software Foundation.
Apache Tika, Tika, Apache, логотип Apache в виде перьев и логотип проекта Apache Tika являются товарными знаками Apache Software Foundation.
Предварительно созданные двоичные файлы автономных приложений Apache Tika доступны по адресу https://tika.apache.org/download.html. Предварительно созданные двоичные файлы всех jar-файлов Tika можно получить из Maven Central или вашего любимого зеркала Maven.
Срок службы Tika 2.X и поддержки Java 8 прекратится (EOL) в апреле 2025 года. См. дорожную карту Tika 2.x, 3.x и последующие версии.
Tika основана на Java 17 и использует систему сборки Maven 3. NB Docker используется для тестов в tika-integration-tests. Начиная с Tika 2.5.1, если Docker не установлен, эти тесты пропускаются. Docker необходим для успешной сборки более ранних версий 2.x.
Чтобы собрать Tika из исходного кода, используйте следующую команду в основном каталоге:
mvn clean install
Сборка состоит из ряда компонентов, в том числе автономного запускаемого jar-файла, который вы можете использовать для опробования функций Tika. Вы можете запустить его следующим образом:
java -jar tika-app/target/tika-app-*.jar --help
Чтобы собрать конкретный проект (например, tika-server-standard):
mvn clean install -am -pl :tika-server-standard
Если плагин ossindex-maven вызывает сбой сборки из-за того, что в зависимости теперь обнаружена уязвимость:
mvn clean install -Dossindex.skip
Apache Tika предоставляет артефакт спецификации (BOM) для согласования версий модулей Tika и упрощения управления версиями. Чтобы избежать ошибок конвергенции в вашем собственном проекте, импортируйте этот bom или родительский pom.xml Tika в раздел управления зависимостями.
Если вы используете Apache Maven:
< project >
< dependencyManagement >
< dependencies >
< dependency >
< groupId >org.apache.tika</ groupId >
< artifactId >tika-bom</ artifactId >
< version >4.x.y</ version >
< type >pom</ type >
< scope >import</ scope >
</ dependency >
</ dependencies >
</ dependencyManagement >
< dependencies >
< dependency >
< groupId >org.apache.tika</ groupId >
< artifactId >tika-parsers-standard-package</ artifactId >
<!-- version not required since BOM included -->
</ dependency >
</ dependencies >
</ project >
Для Градла:
dependencies {
implementation(platform( " org.apache.tika:tika-bom:4.x.y " ))
// version not required since bom (platform in Gradle terms)
implementation( " org.apache.tika:tika-parsers-standard-package " )
}
подлежит уточнению
См. шаблон запроса на включение.
ПРИМЕЧАНИЕ. Откройте запросы на включение в main
ветку. Мы заблокировали master
в сентябре 2020 года и больше его не используем.
Предположим, вы хотите создать тег 3.0.1:
0. Download and install hub.github.com
1. git clone https://github.com/apache/tika.git
2. cd tika
3. git checkout 3.0.1
4. mvn clean install
Если новая уязвимость была обнаружена между датой создания тега и датой его создания, вам может потребоваться выполнить сборку с помощью:
4. mvn clean install -Dossindex.skip
Если локальный тест не работает в вашей среде, сообщите об этом проекту по адресу [email protected]. В качестве немедленного обходного пути вы можете отключить отдельные тесты, например:
4. mvn clean install -Dossindex.skip -Dtest=!UnpackerResourceTest#testPDFImages
Коллективная работа: Copyright 2011 Apache Software Foundation.
Лицензия предоставлена Apache Software Foundation (ASF) в соответствии с одним или несколькими лицензионными соглашениями для участников. Дополнительную информацию относительно владения авторскими правами см. в файле NOTICE, распространяемом вместе с этой работой. ASF передает вам этот файл по лицензии Apache версии 2.0 («Лицензия»); вы не можете использовать этот файл, кроме как в соответствии с Лицензией. Вы можете получить копию Лицензии по адресу:
https://www.apache.org/licenses/LICENSE-2.0
Если это не требуется действующим законодательством или не согласовано в письменной форме, программное обеспечение, распространяемое по Лицензии, распространяется на условиях «КАК ЕСТЬ», БЕЗ КАКИХ-ЛИБО ГАРАНТИЙ ИЛИ УСЛОВИЙ, явных или подразумеваемых. См. Лицензию для определения конкретного языка, регулирующего разрешения и ограничения в рамках Лицензии.
Apache Tika включает в себя ряд подкомпонентов с отдельными уведомлениями об авторских правах и условиями лицензии. Использование вами этих подкомпонентов регулируется условиями лицензий, перечисленных в файле LICENSE.txt.
Этот дистрибутив включает криптографическое программное обеспечение. Страна, в которой вы в настоящее время проживаете, может иметь ограничения на импорт, владение, использование и/или реэкспорт в другую страну программного обеспечения для шифрования. ПЕРЕД использованием любого программного обеспечения для шифрования, пожалуйста, ознакомьтесь с законами, правилами и политиками вашей страны, касающимися импорта, владения или использования и реэкспорта программного обеспечения для шифрования, чтобы узнать, разрешено ли это. Дополнительную информацию см. на http://www.wassenaar.org/.
Министерство торговли США, Бюро промышленности и безопасности (BIS), классифицировало это программное обеспечение как контрольный номер экспортного товара (ECCN) 5D002.C.1, что включает в себя программное обеспечение информационной безопасности, использующее или выполняющее криптографические функции с асимметричными алгоритмами. Форма и способ распространения этого дистрибутива Apache Software Foundation позволяют экспортировать его в соответствии с исключением License Exception ENC Technology Software Unrestricted (TSU) (см. Правила администрирования экспорта BIS, раздел 740.13) как для объектного, так и для исходного кода.
Ниже представлена более подробная информация о включенном в комплект криптографическом программном обеспечении:
Apache Tika использует общие библиотеки шифрования Bouncy Castle для извлечения текстового содержимого и метаданных из зашифрованных PDF-файлов. См. http://www.bouncycastle.org/ для получения более подробной информации о надувном замке.
Обсуждение Тики происходит в следующих списках рассылки:
Уведомления обо всех изменениях кода отправляются по следующему списку рассылки:
Списки рассылки открыты для всех и находятся в публичном архиве.
Вы можете подписаться на списки рассылки, отправив сообщение на адрес [LIST][email protected] (например, user-subscribe@...).
Чтобы отказаться от подписки, отправьте сообщение на адрес [LIST][email protected].
Для получения дополнительных инструкций отправьте сообщение по адресу [LIST][email protected].
Если вы столкнулись с ошибками в Tika или хотите предложить улучшение или новую функцию, посетите систему отслеживания проблем Tika. Там вы также можете найти самую свежую информацию об известных проблемах, а также недавних исправлениях ошибок и улучшениях.
TODO
Нужно установить jce
Если вы обнаружите какие-либо другие проблемы во время сборки, отправьте электронное письмо по адресу [email protected].