Apache Tika(TM) adalah toolkit untuk mendeteksi dan mengekstrak metadata dan konten teks terstruktur dari berbagai dokumen menggunakan perpustakaan parser yang ada.
Tika adalah proyek dari Apache Software Foundation.
Apache Tika, Tika, Apache, logo bulu Apache, dan logo proyek Apache Tika adalah merek dagang dari The Apache Software Foundation.
Biner bawaan aplikasi mandiri Apache Tika tersedia di https://tika.apache.org/download.html . Biner siap pakai untuk semua toples Tika dapat diambil dari Maven Central atau cermin Maven favorit Anda.
Tika 2.X dan dukungan untuk Java 8 direncanakan mencapai End of Life (EOL) pada bulan April 2025. Lihat Peta Jalan Tika 2.x, 3.x dan seterusnya.
Tika didasarkan pada Java 17 dan menggunakan sistem build Maven 3. NB Docker digunakan untuk pengujian di tika-integration-tests. Pada Tika 2.5.1, jika Docker tidak diinstal, pengujian tersebut akan dilewati. Docker diperlukan agar build berhasil pada versi 2.x sebelumnya.
Untuk membangun Tika dari sumber, gunakan perintah berikut di direktori utama:
mvn clean install
Build ini terdiri dari sejumlah komponen, termasuk standalone runnable jar yang dapat Anda gunakan untuk mencoba fitur-fitur Tika. Anda dapat menjalankannya seperti ini:
java -jar tika-app/target/tika-app-*.jar --help
Untuk membangun proyek tertentu (misalnya, tika-server-standard):
mvn clean install -am -pl :tika-server-standard
Jika ossindex-maven-plugin menyebabkan pembangunan gagal karena ketergantungan kini ditemukan memiliki kerentanan:
mvn clean install -Dossindex.skip
Apache Tika menyediakan artefak Bill of Material (BOM) untuk menyelaraskan versi modul Tika dan menyederhanakan manajemen versi. Untuk menghindari kesalahan konvergensi dalam proyek Anda sendiri, impor bom ini atau pom.xml induk Tika di bagian manajemen ketergantungan Anda.
Jika Anda menggunakan Apache Maven:
< project >
< dependencyManagement >
< dependencies >
< dependency >
< groupId >org.apache.tika</ groupId >
< artifactId >tika-bom</ artifactId >
< version >4.x.y</ version >
< type >pom</ type >
< scope >import</ scope >
</ dependency >
</ dependencies >
</ dependencyManagement >
< dependencies >
< dependency >
< groupId >org.apache.tika</ groupId >
< artifactId >tika-parsers-standard-package</ artifactId >
<!-- version not required since BOM included -->
</ dependency >
</ dependencies >
</ project >
Untuk Gradle:
dependencies {
implementation(platform( " org.apache.tika:tika-bom:4.x.y " ))
// version not required since bom (platform in Gradle terms)
implementation( " org.apache.tika:tika-parsers-standard-package " )
}
TBD
Lihat templat permintaan tarik.
CATATAN: Silakan buka permintaan tarik terhadap cabang main
. Kami mengunci master
pada bulan September 2020 dan tidak lagi menggunakannya.
Anggaplah Anda ingin membuat tag 3.0.1:
0. Download and install hub.github.com
1. git clone https://github.com/apache/tika.git
2. cd tika
3. git checkout 3.0.1
4. mvn clean install
Jika kerentanan baru ditemukan antara tanggal pembuatan tag dan tanggal Anda membuat tag, Anda mungkin perlu membuat dengan:
4. mvn clean install -Dossindex.skip
Jika pengujian lokal tidak berfungsi di lingkungan Anda, harap beri tahu proyek di [email protected]. Sebagai solusi langsung, Anda dapat menonaktifkan pengujian individual dengan misalnya:
4. mvn clean install -Dossindex.skip -Dtest=!UnpackerResourceTest#testPDFImages
Kerja kolektif: Hak Cipta 2011 The Apache Software Foundation.
Dilisensikan kepada Apache Software Foundation (ASF) berdasarkan satu atau lebih perjanjian lisensi kontributor. Lihat file PEMBERITAHUAN yang didistribusikan bersama karya ini untuk informasi tambahan mengenai kepemilikan hak cipta. ASF melisensikan file ini kepada Anda di bawah Lisensi Apache, Versi 2.0 ("Lisensi"); Anda tidak boleh menggunakan file ini kecuali sesuai dengan Lisensi. Anda dapat memperoleh salinan Lisensi di
https://www.apache.org/licenses/LICENSE-2.0
Kecuali diwajibkan oleh undang-undang yang berlaku atau disetujui secara tertulis, perangkat lunak yang didistribusikan berdasarkan Lisensi didistribusikan berdasarkan DASAR "APA ADANYA", TANPA JAMINAN ATAU KETENTUAN DALAM BENTUK APAPUN, baik tersurat maupun tersirat. Lihat Lisensi untuk bahasa tertentu yang mengatur izin dan batasan berdasarkan Lisensi.
Apache Tika menyertakan sejumlah subkomponen dengan pemberitahuan hak cipta dan ketentuan lisensi terpisah. Penggunaan Anda atas subkomponen ini tunduk pada syarat dan ketentuan lisensi yang tercantum dalam file LICENSE.txt.
Distribusi ini mencakup perangkat lunak kriptografi. Negara tempat Anda tinggal saat ini mungkin memiliki pembatasan terhadap impor, kepemilikan, penggunaan, dan/atau ekspor ulang perangkat lunak enkripsi ke negara lain. SEBELUM menggunakan perangkat lunak enkripsi apa pun, harap periksa undang-undang, peraturan, dan kebijakan negara Anda mengenai impor, kepemilikan, atau penggunaan, dan ekspor ulang perangkat lunak enkripsi, untuk mengetahui apakah hal ini diizinkan. Lihat http://www.wassenaar.org/ untuk informasi lebih lanjut.
Departemen Perdagangan Pemerintah AS, Biro Industri dan Keamanan (BIS), telah mengklasifikasikan perangkat lunak ini sebagai Nomor Kontrol Komoditas Ekspor (ECCN) 5D002.C.1, yang mencakup perangkat lunak keamanan informasi yang menggunakan atau menjalankan fungsi kriptografi dengan algoritma asimetris. Bentuk dan cara distribusi Apache Software Foundation ini membuatnya memenuhi syarat untuk diekspor berdasarkan pengecualian Lisensi Pengecualian ENC Technology Software Unrestricted (TSU) (lihat Peraturan Administrasi Ekspor BIS, Bagian 740.13) untuk kode objek dan kode sumber.
Berikut ini rincian lebih lanjut tentang perangkat lunak kriptografi yang disertakan:
Apache Tika menggunakan perpustakaan enkripsi generik Bouncy Castle untuk mengekstraksi konten teks dan metadata dari file PDF terenkripsi. Lihat http://www.bouncycastle.org/ untuk rincian lebih lanjut tentang Bouncy Castle.
Diskusi mengenai Tika berlangsung di milis berikut:
Pemberitahuan tentang semua perubahan kode dikirimkan ke milis berikut:
Milis terbuka untuk siapa saja dan diarsipkan secara publik.
Anda dapat berlangganan milis dengan mengirimkan pesan ke [LIST][email protected] (misalnya, user-subscribe@...).
Untuk berhenti berlangganan, kirim pesan ke [LIST][email protected].
Untuk instruksi lebih lanjut, kirim pesan ke [LIST][email protected].
Jika Anda mengalami kesalahan di Tika atau ingin menyarankan perbaikan atau fitur baru, silakan kunjungi pelacak masalah Tika. Di sana Anda juga dapat menemukan informasi terbaru tentang masalah umum serta perbaikan bug dan penyempurnaan terkini.
TODO
Perlu menginstal jce
Jika Anda menemukan masalah lain saat membangun, silakan kirim email ke daftar [email protected].