ดาวน์โหลด jsoup - ดาวน์โหลดซอร์สโค้ด jsoup

jsoup

ซอร์สโค้ด JAVA

jsoup-1.18.3

ดาวน์โหลด

jsoup: ตัวแยกวิเคราะห์ Java HTML

jsoup เป็นไลบรารี Java ที่ทำให้ง่ายต่อการทำงานกับ HTML และ XML ในโลกแห่งความเป็นจริง มี API ที่ใช้งานง่ายสำหรับการดึง URL การแยกวิเคราะห์ข้อมูล การแยก และการจัดการโดยใช้วิธี DOM API, CSS และตัวเลือก xpath

jsoup ใช้ข้อกำหนด WHATWG HTML5 และแยกวิเคราะห์ HTML เป็น DOM เดียวกันกับเบราว์เซอร์สมัยใหม่

ขูดและแยก HTML จาก URL ไฟล์หรือสตริง
ค้นหาและแยกข้อมูลโดยใช้การแวะผ่าน DOM หรือตัวเลือก CSS
จัดการองค์ประกอบ HTML คุณลักษณะและข้อความ
ทำความสะอาดเนื้อหาที่ผู้ใช้ส่งมาโดยเทียบกับรายการที่ปลอดภัย เพื่อป้องกันการโจมตี XSS
output tidy HTML

jsoup ได้รับการออกแบบมาเพื่อจัดการกับ HTML ทุกรูปแบบที่พบในป่า จากความเก่าแก่และการตรวจสอบไปจนถึงซุปแท็กที่ไม่ถูกต้อง jsoup จะสร้างแผนผังการแยกวิเคราะห์ที่สมเหตุสมผล

ดู jsoup.org สำหรับการดาวน์โหลดและเอกสาร API ฉบับเต็ม

ตัวอย่าง

ดึงข้อมูลหน้าแรกของ Wikipedia แยกวิเคราะห์เป็น DOM และเลือกหัวข้อข่าวจากส่วน In the News ลงในรายการองค์ประกอบ:

 Document doc = Jsoup . connect ( "https://en.wikipedia.org/" ). get ();
log ( doc . title ());
Elements newsHeadlines = doc . select ( "#mp-itn b a" );
for ( Element headline : newsHeadlines ) {
  log ( "%s n t %s" , 
    headline . attr ( "title" ), headline . absUrl ( "href" ));
}