Apache Tika(TM) é um kit de ferramentas para detectar e extrair metadados e conteúdo de texto estruturado de vários documentos usando bibliotecas de analisadores existentes.
Tika é um projeto da Apache Software Foundation.
Apache Tika, Tika, Apache, o logotipo Apache Feather e o logotipo do projeto Apache Tika são marcas registradas da The Apache Software Foundation.
Binários pré-construídos de aplicativos independentes do Apache Tika estão disponíveis em https://tika.apache.org/download.html . Binários pré-construídos de todos os jars Tika podem ser obtidos no Maven Central ou no seu espelho Maven favorito.
O Tika 2.X e o suporte para Java 8 estão planejados para atingir o fim da vida útil (EOL) em abril de 2025. Consulte o Tika Roadmap 2.x, 3.x e além.
Tika é baseado em Java 17 e usa o sistema de compilação Maven 3. NB Docker é usado para testes em testes de integração tika. A partir do Tika 2.5.1, se o Docker não estiver instalado, esses testes serão ignorados. O Docker é necessário para uma compilação bem-sucedida em versões 2.x anteriores.
Para construir o Tika a partir do código-fonte, use o seguinte comando no diretório principal:
mvn clean install
A compilação consiste em vários componentes, incluindo um jar executável independente que você pode usar para testar os recursos do Tika. Você pode executá-lo assim:
java -jar tika-app/target/tika-app-*.jar --help
Para construir um projeto específico (por exemplo, tika-server-standard):
mvn clean install -am -pl :tika-server-standard
Se o ossindex-maven-plugin estiver causando falha na compilação porque foi descoberto que uma dependência tem uma vulnerabilidade:
mvn clean install -Dossindex.skip
Apache Tika fornece artefato de lista de materiais (BOM) para alinhar as versões do módulo Tika e simplificar o gerenciamento de versões. Para evitar erros de convergência em seu próprio projeto, importe este bom ou o pom.xml pai de Tika em sua seção de gerenciamento de dependências.
Se você usa Apache Maven:
< project >
< dependencyManagement >
< dependencies >
< dependency >
< groupId >org.apache.tika</ groupId >
< artifactId >tika-bom</ artifactId >
< version >4.x.y</ version >
< type >pom</ type >
< scope >import</ scope >
</ dependency >
</ dependencies >
</ dependencyManagement >
< dependencies >
< dependency >
< groupId >org.apache.tika</ groupId >
< artifactId >tika-parsers-standard-package</ artifactId >
<!-- version not required since BOM included -->
</ dependency >
</ dependencies >
</ project >
Para Gradle:
dependencies {
implementation(platform( " org.apache.tika:tika-bom:4.x.y " ))
// version not required since bom (platform in Gradle terms)
implementation( " org.apache.tika:tika-parsers-standard-package " )
}
A definir
Veja o modelo de solicitação pull.
NOTA: Abra solicitações pull no branch main
. Bloqueamos master
em setembro de 2020 e não o usamos mais.
Vamos supor que você queira criar a tag 3.0.1:
0. Download and install hub.github.com
1. git clone https://github.com/apache/tika.git
2. cd tika
3. git checkout 3.0.1
4. mvn clean install
Se uma nova vulnerabilidade tiver sido descoberta entre a data da tag e a data em que você está construindo a tag, talvez seja necessário compilar com:
4. mvn clean install -Dossindex.skip
Se um teste local não estiver funcionando em seu ambiente, notifique o projeto em [email protected]. Como solução imediata, você pode desativar testes individuais com, por exemplo:
4. mvn clean install -Dossindex.skip -Dtest=!UnpackerResourceTest#testPDFImages
Trabalho coletivo: Copyright 2011 The Apache Software Foundation.
Licenciado para a Apache Software Foundation (ASF) sob um ou mais contratos de licença de contribuidor. Consulte o arquivo AVISO distribuído com este trabalho para obter informações adicionais sobre a propriedade dos direitos autorais. A ASF licencia este arquivo para Você sob a Licença Apache, Versão 2.0 (a "Licença"); você não pode usar este arquivo exceto em conformidade com a Licença. Você pode obter uma cópia da Licença em
https://www.apache.org/licenses/LICENSE-2.0
A menos que exigido pela lei aplicável ou acordado por escrito, o software distribuído sob a Licença é distribuído "COMO ESTÁ", SEM GARANTIAS OU CONDIÇÕES DE QUALQUER TIPO, expressas ou implícitas. Consulte a Licença para saber o idioma específico que rege as permissões e limitações da Licença.
O Apache Tika inclui vários subcomponentes com avisos de direitos autorais e termos de licença separados. O uso desses subcomponentes está sujeito aos termos e condições das licenças listadas no arquivo LICENSE.txt.
Esta distribuição inclui software criptográfico. O país em que você reside atualmente pode ter restrições à importação, posse, uso e/ou reexportação para outro país de software de criptografia. ANTES de usar qualquer software de criptografia, verifique as leis, regulamentos e políticas do seu país relativas à importação, posse ou uso e reexportação de software de criptografia para ver se isso é permitido. Consulte http://www.wassenaar.org/ para obter mais informações.
O Departamento de Comércio do Governo dos EUA, Bureau de Indústria e Segurança (BIS), classificou este software como Export Commodity Control Number (ECCN) 5D002.C.1, que inclui software de segurança da informação que usa ou executa funções criptográficas com algoritmos assimétricos. A forma e o modo desta distribuição da Apache Software Foundation a tornam elegível para exportação sob a exceção License Exception ENC Technology Software Unrestricted (TSU) (consulte os Regulamentos de Administração de Exportação do BIS, Seção 740.13) para código-objeto e código-fonte.
A seguir são fornecidos mais detalhes sobre o software criptográfico incluído:
Apache Tika usa as bibliotecas genéricas de criptografia Bouncy Castle para extrair conteúdo de texto e metadados de arquivos PDF criptografados. Consulte http://www.bouncycastle.org/ para obter mais detalhes sobre o Castelo Bouncy.
A discussão sobre Tika ocorre nas seguintes listas de discussão:
Notificações sobre todas as alterações de código são enviadas para a seguinte lista de discussão:
As listas de discussão são abertas a qualquer pessoa e arquivadas publicamente.
Você pode assinar as listas de discussão enviando uma mensagem para [LIST][email protected] (por exemplo, user-subscribe@...).
Para cancelar a assinatura, envie uma mensagem para [LIST][email protected].
Para obter mais instruções, envie uma mensagem para [LIST][email protected].
Se você encontrar erros no Tika ou quiser sugerir uma melhoria ou um novo recurso, visite o rastreador de problemas do Tika. Lá você também pode encontrar as informações mais recentes sobre problemas conhecidos e correções de bugs e melhorias recentes.
PENDÊNCIA
Precisa instalar o jce
Se você encontrar qualquer outro problema durante a construção, envie um e-mail para a lista [email protected].