Pustaka Apache PDFBox adalah alat Java sumber terbuka untuk bekerja dengan dokumen PDF. Proyek ini memungkinkan pembuatan dokumen PDF baru, manipulasi dokumen yang sudah ada, dan kemampuan untuk mengekstraksi konten dari dokumen. PDFBox juga menyertakan beberapa utilitas baris perintah. PDFBox diterbitkan di bawah Lisensi Apache, Versi 2.0.
PDFBox adalah proyek dari Apache Software Foundation.
Anda dapat mengunduh versi biner untuk rilis yang sedang dalam pengembangan atau rilis lama dari Halaman Unduhan kami.
Anda memerlukan Java 11 (atau lebih tinggi) dan Maven 3 untuk membuat PDFBox. Perintah build yang direkomendasikan adalah:
mvn clean install
Build default akan mengkompilasi sumber Java dan mengemas kelas biner ke dalam paket jar. Lihat dokumentasi Maven untuk semua opsi build lain yang tersedia.
Ada berbagai cara untuk membantu kami meningkatkan PDFBox.
Silakan ikuti panduan di Halaman Dukungan kami.
Jika Anda memiliki pertanyaan tentang cara menggunakan PDFBox, tanyakan di Milis Pengguna. Ini akan memberi Anda bantuan dari seluruh komunitas.
Contoh PDFBox dan kode pengujian di sumber juga akan memberikan informasi tambahan.
Dan ada sumber daya tambahan yang tersedia di situs seperti Stack Overflow.
Jika Anda yakin telah menemukan bug, harap laporkan masalah tersebut di Pelacak Masalah kami.
Lihat Issue Tracker untuk mengetahui daftar lengkap masalah umum dan fitur yang diminta. Beberapa masalah yang lebih umum adalah:
Anda mendapatkan teks seperti "G38G43G36G51G5" bukan yang Anda harapkan saat mengekstrak teks. Hal ini karena karakter merupakan pengkodean internal tidak berarti yang menunjuk ke mesin terbang yang tertanam dalam dokumen PDF. Satu-satunya cara untuk mengakses teks adalah dengan menggunakan OCR. Ini mungkin merupakan peningkatan di masa depan.
Anda mendapatkan pesan kesalahan seperti java.io.IOException: Can't handle font width
Ini MUNGKIN disebabkan oleh fakta bahwa Anda tidak memiliki direktori org/Apache/pdfbox/resources di classpath Anda. Solusi termudah adalah dengan memasukkan Apache-pdfbox-xxxjar di classpath Anda.
Anda mendapatkan teks yang memiliki karakter yang benar, tetapi dalam urutan yang salah. Ini mungkin karena Anda belum mengaktifkan penyortiran. Teks dalam file PDF disimpan dalam potongan dan potongan tersebut tidak perlu disimpan sesuai urutan tampilannya pada halaman. Secara default, PDFBox tidak mengurutkan teks.
Kerja kolektif: Hak Cipta 2015 The Apache Software Foundation.
Dilisensikan kepada Apache Software Foundation (ASF) berdasarkan satu atau lebih perjanjian lisensi kontributor. Lihat file PEMBERITAHUAN yang didistribusikan bersama karya ini untuk informasi tambahan mengenai kepemilikan hak cipta. ASF melisensikan file ini kepada Anda di bawah Lisensi Apache, Versi 2.0 ("Lisensi"); Anda tidak boleh menggunakan file ini kecuali sesuai dengan Lisensi. Anda dapat memperoleh salinan Lisensi di
https://www.apache.org/licenses/LICENSE-2.0
Kecuali diwajibkan oleh undang-undang yang berlaku atau disetujui secara tertulis, perangkat lunak yang didistribusikan berdasarkan Lisensi didistribusikan berdasarkan DASAR "APA ADANYA", TANPA JAMINAN ATAU KETENTUAN DALAM BENTUK APAPUN, baik tersurat maupun tersirat. Lihat Lisensi untuk bahasa tertentu yang mengatur izin dan batasan berdasarkan Lisensi.
Distribusi ini mencakup perangkat lunak kriptografi. Negara tempat Anda tinggal saat ini mungkin memiliki pembatasan terhadap impor, kepemilikan, penggunaan, dan/atau ekspor ulang perangkat lunak enkripsi ke negara lain. SEBELUM menggunakan perangkat lunak enkripsi apa pun, harap periksa undang-undang, peraturan, dan kebijakan negara Anda mengenai impor, kepemilikan, atau penggunaan, dan ekspor ulang perangkat lunak enkripsi, untuk mengetahui apakah hal ini diizinkan. Lihat https://www.wassenaar.org/ untuk informasi lebih lanjut.
Departemen Perdagangan Pemerintah AS, Biro Industri dan Keamanan (BIS), telah mengklasifikasikan perangkat lunak ini sebagai Nomor Kontrol Komoditas Ekspor (ECCN) 5D002.C.1, yang mencakup perangkat lunak keamanan informasi yang menggunakan atau menjalankan fungsi kriptografi dengan algoritma asimetris. Bentuk dan cara distribusi Apache Software Foundation ini membuatnya memenuhi syarat untuk diekspor berdasarkan pengecualian Lisensi Pengecualian ENC Technology Software Unrestricted (TSU) (lihat Peraturan Administrasi Ekspor BIS, Bagian 740.13) untuk kode objek dan kode sumber.
Berikut ini rincian lebih lanjut tentang perangkat lunak kriptografi yang disertakan:
Apache PDFBox menggunakan Java Cryptography Architecture (JCA) dan perpustakaan Bouncy Castle untuk menangani enkripsi dalam dokumen PDF.