Apache Tika(TM) เป็นชุดเครื่องมือสำหรับการตรวจจับและแยกข้อมูลเมตาและเนื้อหาข้อความที่มีโครงสร้างจากเอกสารต่างๆ โดยใช้ไลบรารี parser ที่มีอยู่
Tika เป็นโครงการของมูลนิธิซอฟต์แวร์ Apache
Apache Tika, Tika, Apache, โลโก้ขนนก Apache และโลโก้โครงการ Apache Tika เป็นเครื่องหมายการค้าของ The Apache Software Foundation
ไบนารีที่สร้างไว้ล่วงหน้าของแอปพลิเคชันแบบสแตนด์อโลน Apache Tika มีให้ที่ https://tika.apache.org/download.html ไบนารีที่สร้างไว้ล่วงหน้าของขวด Tika ทั้งหมดสามารถดึงมาจาก Maven Central หรือกระจก Maven ที่คุณชื่นชอบ
Tika 2.X และการสนับสนุน Java 8 มีแผนจะไปถึงจุดสิ้นสุดของชีวิต (EOL) ในเดือนเมษายน 2025 ดู Tika Roadmap 2.x, 3.x และอื่นๆ
Tika ใช้ Java 17 และใช้ระบบ Maven 3 build NB Docker ใช้สำหรับการทดสอบในการทดสอบ tika-integration-test As of Tika 2.5.1, if Docker is not installed, those tests are skipped. Docker is required for a successful build on earlier 2.x versions.
หากต้องการสร้าง Tika จากแหล่งที่มา ให้ใช้คำสั่งต่อไปนี้ในไดเร็กทอรีหลัก:
mvn clean install
โครงสร้างประกอบด้วยส่วนประกอบจำนวนหนึ่ง รวมถึง runable jar แบบสแตนด์อโลนที่คุณสามารถใช้เพื่อทดลองใช้คุณสมบัติของ Tika คุณสามารถรันได้ดังนี้:
java -jar tika-app/target/tika-app-*.jar --help
หากต้องการสร้างโปรเจ็กต์เฉพาะ (เช่น tika-server-standard):
mvn clean install -am -pl :tika-server-standard
หาก ossindex-maven-plugin ทำให้การสร้างล้มเหลวเนื่องจากขณะนี้พบว่าการขึ้นต่อกันมีช่องโหว่:
mvn clean install -Dossindex.skip
Apache Tika provides Bill of Material (BOM) artifact to align Tika module versions and simplify version management. To avoid convergence errors in your own project, import this bom or Tika's parent pom.xml in your dependency management section.
หากคุณใช้ Apache Maven:
< project >
< dependencyManagement >
< dependencies >
< dependency >
< groupId >org.apache.tika</ groupId >
< artifactId >tika-bom</ artifactId >
< version >4.x.y</ version >
< type >pom</ type >
< scope >import</ scope >
</ dependency >
</ dependencies >
</ dependencyManagement >
< dependencies >
< dependency >
< groupId >org.apache.tika</ groupId >
< artifactId >tika-parsers-standard-package</ artifactId >
<!-- version not required since BOM included -->
</ dependency >
</ dependencies >
</ project >
สำหรับเกรเดิล:
dependencies {
implementation(platform( " org.apache.tika:tika-bom:4.x.y " ))
// version not required since bom (platform in Gradle terms)
implementation( " org.apache.tika:tika-parsers-standard-package " )
}
จะแจ้งภายหลัง
ดูเทมเพลตคำขอดึง
หมายเหตุ: โปรดเปิดคำขอดึงกับสาขา main
เราล็อค master
ในเดือนกันยายน 2020 และไม่ได้ใช้งานอีกต่อไป
สมมติว่าคุณต้องการสร้างแท็ก 3.0.1:
0. Download and install hub.github.com
1. git clone https://github.com/apache/tika.git
2. cd tika
3. git checkout 3.0.1
4. mvn clean install
หากพบช่องโหว่ใหม่ระหว่างวันที่ของแท็กถึงวันที่ที่คุณกำลังสร้างแท็ก คุณอาจต้องสร้างด้วย:
4. mvn clean install -Dossindex.skip
หากการทดสอบในพื้นที่ไม่ทำงานในสภาพแวดล้อมของคุณ โปรดแจ้งโครงการที่ [email protected] เพื่อเป็นวิธีแก้ปัญหาชั่วคราว คุณสามารถปิดการทดสอบแต่ละรายการได้ เช่น:
4. mvn clean install -Dossindex.skip -Dtest=!UnpackerResourceTest#testPDFImages
งานโดยรวม: ลิขสิทธิ์ 2011 มูลนิธิซอฟต์แวร์ Apache
ได้รับอนุญาตให้ใช้งานกับ Apache Software Foundation (ASF) ภายใต้ข้อตกลงใบอนุญาตผู้มีส่วนร่วมตั้งแต่หนึ่งข้อตกลงขึ้นไป ดูไฟล์ประกาศที่เผยแพร่พร้อมกับงานนี้สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการเป็นเจ้าของลิขสิทธิ์ ASF ให้สิทธิ์ใช้งานไฟล์นี้แก่คุณภายใต้ Apache License เวอร์ชัน 2.0 ("ใบอนุญาต"); คุณไม่สามารถใช้ไฟล์นี้ได้เว้นแต่จะเป็นไปตามใบอนุญาต คุณสามารถขอรับสำเนาใบอนุญาตได้ที่
https://www.apache.org/licenses/LICENSE-2.0
เว้นแต่กฎหมายที่ใช้บังคับกำหนดหรือตกลงเป็นลายลักษณ์อักษร ซอฟต์แวร์ที่เผยแพร่ภายใต้ใบอนุญาตนี้จะถูกแจกจ่าย "ตามที่เป็น" โดยไม่มีการรับประกันหรือเงื่อนไขใดๆ ทั้งโดยชัดแจ้งหรือโดยนัย ดูใบอนุญาตสำหรับภาษาเฉพาะที่ควบคุมการอนุญาตและข้อจำกัดภายใต้ใบอนุญาต
Apache Tika มีองค์ประกอบย่อยจำนวนหนึ่งพร้อมประกาศลิขสิทธิ์และข้อกำหนดสิทธิ์การใช้งานแยกต่างหาก การใช้ส่วนประกอบย่อยเหล่านี้อยู่ภายใต้ข้อกำหนดและเงื่อนไขของใบอนุญาตที่ระบุไว้ในไฟล์ LICENSE.txt
การแจกจ่ายนี้รวมถึงซอฟต์แวร์เข้ารหัสลับด้วย ประเทศที่คุณอาศัยอยู่ในปัจจุบันอาจมีข้อจำกัดในการนำเข้า ครอบครอง ใช้ และ/หรือส่งออกซ้ำไปยังประเทศอื่นของซอฟต์แวร์เข้ารหัส ก่อนที่จะใช้ซอฟต์แวร์เข้ารหัสใดๆ โปรดตรวจสอบกฎหมาย ข้อบังคับ และนโยบายของประเทศของคุณเกี่ยวกับการนำเข้า ครอบครอง หรือใช้ และส่งออกซอฟต์แวร์เข้ารหัสอีกครั้ง เพื่อดูว่าได้รับอนุญาตหรือไม่ ดู http://www.wassenaar.org/ สำหรับข้อมูลเพิ่มเติม
กระทรวงพาณิชย์ของรัฐบาลสหรัฐอเมริกา สำนักงานอุตสาหกรรมและความปลอดภัย (BIS) ได้จัดประเภทซอฟต์แวร์นี้เป็นหมายเลขควบคุมสินค้าส่งออก (ECCN) 5D002.C.1 ซึ่งรวมถึงซอฟต์แวร์รักษาความปลอดภัยข้อมูลที่ใช้หรือดำเนินการฟังก์ชันการเข้ารหัสด้วยอัลกอริธึมที่ไม่สมมาตร รูปแบบและลักษณะของการแจกจ่าย Apache Software Foundation นี้ทำให้มีสิทธิ์ในการส่งออกภายใต้ข้อยกเว้นใบอนุญาต ENC Technology Software Unrestricted (TSU) ข้อยกเว้น (ดู BIS Export Administration Rules, มาตรา 740.13) สำหรับทั้ง object code และ source code
ข้อมูลต่อไปนี้ให้รายละเอียดเพิ่มเติมเกี่ยวกับซอฟต์แวร์เข้ารหัสที่มีให้:
Apache Tika ใช้ไลบรารีการเข้ารหัสทั่วไป Bouncy Castle เพื่อแยกเนื้อหาข้อความและข้อมูลเมตาจากไฟล์ PDF ที่เข้ารหัส ดู http://www.bouncycastle.org/ สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับปราสาท Bouncy
การสนทนาเกี่ยวกับ Tika เกิดขึ้นในรายชื่อผู้รับจดหมายต่อไปนี้:
Notification on all code changes are sent to the following mailing list:
รายชื่อผู้รับจดหมายเปิดสำหรับทุกคนและเก็บถาวรแบบสาธารณะ
คุณสามารถสมัครรับรายชื่ออีเมลได้โดยส่งข้อความไปที่ [LIST][email protected] (เช่น user-subscribe@...)
หากต้องการยกเลิกการสมัคร ให้ส่งข้อความไปที่ [LIST][email protected]
หากต้องการคำแนะนำเพิ่มเติม โปรดส่งข้อความไปที่ [LIST][email protected]
หากคุณพบข้อผิดพลาดใน Tika หรือต้องการแนะนำการปรับปรุงหรือคุณสมบัติใหม่ โปรดไปที่ตัวติดตามปัญหาของ Tika คุณยังสามารถค้นหาข้อมูลล่าสุดเกี่ยวกับปัญหาที่ทราบ รวมถึงการแก้ไขข้อบกพร่องและการปรับปรุงล่าสุดได้อีกด้วย
สิ่งที่ต้องทำ
จำเป็นต้องติดตั้ง jce
หากคุณพบปัญหาอื่นๆ ในขณะที่สร้าง โปรดส่งอีเมลไปที่รายชื่อ [email protected]