jsoup는 실제 HTML 및 XML 작업을 쉽게 해주는 Java 라이브러리입니다. DOM API 메소드, CSS 및 xpath 선택기를 사용하여 URL 가져오기, 데이터 구문 분석, 추출 및 조작을 위한 사용하기 쉬운 API를 제공합니다.
jsoup는 WHATWG HTML5 사양을 구현하고 HTML을 최신 브라우저와 동일한 DOM으로 구문 분석합니다.
jsoup는 야생에서 발견되는 모든 종류의 HTML을 처리하도록 설계되었습니다. 깨끗하고 검증된 것부터 유효하지 않은 태그 수프까지; jsoup는 합리적인 구문 분석 트리를 생성합니다.
다운로드 및 전체 API 문서는 jsoup.org를 참조하세요.
Wikipedia 홈페이지를 가져와서 DOM으로 구문 분석하고 In the News 섹션의 헤드라인을 요소 목록으로 선택합니다.
Document doc = Jsoup . connect ( "https://en.wikipedia.org/" ). get ();
log ( doc . title ());
Elements newsHeadlines = doc . select ( "#mp-itn b a" );
for ( Element headline : newsHeadlines ) {
log ( "%s n t %s" ,
headline . attr ( "title" ), headline . absUrl ( "href" ));
}
온라인 샘플, 전체 소스.
jsoup는 자유주의 MIT 라이센스에 따라 배포되는 오픈 소스 프로젝트입니다. 소스 코드는 GitHub에서 사용할 수 있습니다.
Android 프로젝트에서 사용하는 경우 NIO 사양을 사용한 핵심 라이브러리 디슈가링을 활성화하여 Java 8+ 기능을 지원해야 합니다.
jsoup 사용 방법에 대해 질문이 있거나 향후 개발에 대한 아이디어가 있는 경우 jsoup 토론을 통해 문의하세요.
문제가 발견되면 중복 여부를 확인한 후 버그를 신고해 주세요.
colophon은 jsoup를 구축하는 데 사용된 도구와 역사에 대해 이야기합니다.
jsoup은 일반적으로 안정적인 릴리스입니다.