jsoup adalah perpustakaan Java yang memudahkan bekerja dengan HTML dan XML dunia nyata. Ia menawarkan API yang mudah digunakan untuk pengambilan URL, penguraian data, ekstraksi, dan manipulasi menggunakan metode DOM API, CSS, dan pemilih xpath.
jsoup mengimplementasikan spesifikasi WHATWG HTML5, dan mem-parsing HTML ke DOM yang sama dengan browser modern.
jsoup dirancang untuk menangani semua jenis HTML yang ditemukan di alam liar; dari yang asli dan memvalidasi, hingga sup tag yang tidak valid; jsoup akan membuat pohon parse yang masuk akal.
Lihat jsoup.org untuk download dan dokumentasi API lengkap.
Ambil beranda Wikipedia, parsing ke DOM, dan pilih judul dari bagian Dalam Berita ke dalam daftar Elemen:
Document doc = Jsoup . connect ( "https://en.wikipedia.org/" ). get ();
log ( doc . title ());
Elements newsHeadlines = doc . select ( "#mp-itn b a" );
for ( Element headline : newsHeadlines ) {
log ( "%s n t %s" ,
headline . attr ( "title" ), headline . absUrl ( "href" ));
}
Sampel online, sumber lengkap.
jsoup adalah proyek sumber terbuka yang didistribusikan di bawah lisensi liberal MIT. Kode sumber tersedia di GitHub.
Saat digunakan dalam proyek Android, pustaka inti yang disesuaikan dengan spesifikasi NIO harus diaktifkan untuk mendukung fitur Java 8+.
Jika Anda memiliki pertanyaan tentang cara menggunakan jsoup, atau memiliki ide untuk pengembangan di masa depan, silakan menghubungi melalui Diskusi jsoup.
Jika Anda menemukan masalah apa pun, laporkan bug setelah memeriksa duplikatnya.
Kolofon berbicara tentang sejarah dan alat yang digunakan untuk membangun jsoup.
jsoup secara umum adalah rilis stabil.