Apache Tika(TM)는 기존 파서 라이브러리를 사용하여 다양한 문서에서 메타데이터와 구조화된 텍스트 콘텐츠를 탐지하고 추출하기 위한 툴킷입니다.
Tika는 Apache Software Foundation의 프로젝트입니다.
Apache Tika, Tika, Apache, Apache 깃털 로고 및 Apache Tika 프로젝트 로고는 Apache Software Foundation의 상표입니다.
Apache Tika 독립 실행형 애플리케이션의 사전 구축된 바이너리는 https://tika.apache.org/download.html에서 사용할 수 있습니다. 모든 Tika jar의 사전 빌드된 바이너리는 Maven Central 또는 즐겨 사용하는 Maven 미러에서 가져올 수 있습니다.
Tika 2.X 및 Java 8에 대한 지원은 2025년 4월에 EOL(수명 종료)에 도달할 예정입니다. Tika 로드맵 2.x, 3.x 이상을 참조하세요.
Tika는 Java 17을 기반으로 하며 Maven 3 빌드 시스템을 사용합니다. NB Docker는 tika-integration-tests의 테스트에 사용됩니다. Tika 2.5.1부터 Docker가 설치되어 있지 않으면 해당 테스트를 건너뜁니다. 이전 2.x 버전에서 성공적인 빌드를 위해서는 Docker가 필요합니다.
소스에서 Tika를 빌드하려면 기본 디렉터리에서 다음 명령을 사용하세요.
mvn clean install
빌드는 Tika 기능을 시험해 보는 데 사용할 수 있는 독립형 실행 가능 jar을 포함하여 다양한 구성 요소로 구성됩니다. 다음과 같이 실행할 수 있습니다.
java -jar tika-app/target/tika-app-*.jar --help
특정 프로젝트(예: tika-server-standard)를 빌드하려면 다음을 수행하십시오.
mvn clean install -am -pl :tika-server-standard
이제 종속 항목에 취약점이 있는 것으로 발견되어 ossindex-maven-plugin으로 인해 빌드가 실패하는 경우:
mvn clean install -Dossindex.skip
Apache Tika는 BOM( Bill of Material ) 아티팩트를 제공하여 Tika 모듈 버전을 정렬하고 버전 관리를 단순화합니다. 자신의 프로젝트에서 수렴 오류를 방지하려면 종속성 관리 섹션에서 이 bom 또는 Tika의 상위 pom.xml을 가져오세요.
Apache Maven을 사용하는 경우:
< project >
< dependencyManagement >
< dependencies >
< dependency >
< groupId >org.apache.tika</ groupId >
< artifactId >tika-bom</ artifactId >
< version >4.x.y</ version >
< type >pom</ type >
< scope >import</ scope >
</ dependency >
</ dependencies >
</ dependencyManagement >
< dependencies >
< dependency >
< groupId >org.apache.tika</ groupId >
< artifactId >tika-parsers-standard-package</ artifactId >
<!-- version not required since BOM included -->
</ dependency >
</ dependencies >
</ project >
Gradle의 경우:
dependencies {
implementation(platform( " org.apache.tika:tika-bom:4.x.y " ))
// version not required since bom (platform in Gradle terms)
implementation( " org.apache.tika:tika-parsers-standard-package " )
}
미정
풀 요청 템플릿을 참조하세요.
참고: main
브랜치에 대한 풀 리퀘스트를 열어주세요. 우리는 2020년 9월에 master
잠갔고 더 이상 사용하지 않습니다.
3.0.1 태그를 구축한다고 가정해 보겠습니다.
0. Download and install hub.github.com
1. git clone https://github.com/apache/tika.git
2. cd tika
3. git checkout 3.0.1
4. mvn clean install
태그 날짜와 태그를 구축하는 날짜 사이에 새로운 취약점이 발견된 경우 다음을 사용하여 구축해야 할 수 있습니다.
4. mvn clean install -Dossindex.skip
로컬 테스트가 귀하의 환경에서 작동하지 않는 경우 [email protected]로 프로젝트에 알려주십시오. 즉각적인 해결 방법으로 다음과 같이 개별 테스트를 끌 수 있습니다.
4. mvn clean install -Dossindex.skip -Dtest=!UnpackerResourceTest#testPDFImages
공동 저작물: Copyright 2011 The Apache Software Foundation.
하나 이상의 기여자 라이센스 계약에 따라 Apache Software Foundation(ASF)에 라이센스가 부여됩니다. 저작권 소유권에 관한 추가 정보는 이 저작물과 함께 배포된 NOTICE 파일을 참조하세요. ASF는 Apache 라이센스 버전 2.0("라이센스")에 따라 귀하에게 이 파일에 대한 라이센스를 부여합니다. 라이센스를 준수하는 경우를 제외하고는 이 파일을 사용할 수 없습니다. 다음에서 라이센스 사본을 얻을 수 있습니다.
https://www.apache.org/licenses/LICENSE-2.0
해당 법률에서 요구하거나 서면으로 동의하지 않는 한, 라이선스에 따라 배포되는 소프트웨어는 명시적이든 묵시적이든 어떠한 종류의 보증이나 조건 없이 "있는 그대로" 배포됩니다. 라이선스에 따른 허가 및 제한 사항을 관리하는 특정 언어는 라이선스를 참조하세요.
Apache Tika에는 별도의 저작권 고지 및 라이센스 조건이 있는 여러 하위 구성요소가 포함되어 있습니다. 이러한 하위 구성요소 사용에는 LICENSE.txt 파일에 나열된 라이센스의 이용 약관이 적용됩니다.
이 배포판에는 암호화 소프트웨어가 포함되어 있습니다. 귀하가 현재 거주하고 있는 국가에서는 암호화 소프트웨어를 다른 국가로 수입, 소유, 사용 및/또는 재수출하는 데 제한이 있을 수 있습니다. 암호화 소프트웨어를 사용하기 전에 암호화 소프트웨어의 수입, 소유, 사용 및 재수출에 관한 해당 국가의 법률, 규정 및 정책을 확인하여 이것이 허용되는지 확인하십시오. 자세한 내용은 http://www.wassenaar.org/를 참조하세요.
미국 정부 상무부, 산업안보국(BIS)은 이 소프트웨어를 수출상품통제번호(ECCN) 5D002.C.1로 분류했습니다. 여기에는 비대칭 알고리즘을 사용하거나 암호화 기능을 수행하는 정보 보안 소프트웨어가 포함됩니다. 이 Apache Software Foundation 배포판의 형식과 방식으로 인해 개체 코드와 소스 코드 모두에 대해 라이선스 예외 ENC TSU(Technology Software Unrestricted) 예외(BIS 수출 관리 규정, 섹션 740.13 참조)에 따라 수출할 수 있습니다.
다음은 포함된 암호화 소프트웨어에 대한 자세한 내용을 제공합니다.
Apache Tika는 암호화된 PDF 파일에서 텍스트 콘텐츠와 메타데이터를 추출하기 위해 Bouncy Castle 일반 암호화 라이브러리를 사용합니다. Bouncy Castle에 대한 자세한 내용은 http://www.bouncycastle.org/를 참조하세요.
Tika에 대한 토론은 다음 메일링 리스트에서 이루어집니다.
모든 코드 변경에 대한 알림은 다음 메일링 리스트로 전송됩니다.
메일링 리스트는 누구에게나 공개되어 있으며 공개적으로 보관됩니다.
[LIST][email protected](예: user-subscribe@...)로 메시지를 보내 메일링 리스트를 구독할 수 있습니다.
구독을 취소하려면 [LIST][email protected]로 메시지를 보내세요.
자세한 지침을 보려면 [LIST][email protected]로 메시지를 보내세요.
Tika에서 오류가 발생하거나 개선 사항이나 새로운 기능을 제안하고 싶다면 Tika 이슈 트래커를 방문하세요. 여기서는 알려진 문제와 최근 버그 수정 및 개선 사항에 대한 최신 정보도 찾을 수 있습니다.
TODO
jce를 설치해야합니다
빌드하는 동안 다른 문제를 발견하면 [email protected] 목록으로 이메일을 보내주세요.