jsoup é uma biblioteca Java que facilita o trabalho com HTML e XML do mundo real. Ele oferece uma API fácil de usar para busca de URL, análise de dados, extração e manipulação usando métodos API DOM, CSS e seletores xpath.
jsoup implementa a especificação WHATWG HTML5 e analisa HTML no mesmo DOM dos navegadores modernos.
jsoup foi projetado para lidar com todas as variedades de HTML encontradas à solta; de puro e validador a sopa de tags inválida; jsoup criará uma árvore de análise sensata.
Consulte jsoup.org para downloads e a documentação completa da API.
Obtenha a página inicial da Wikipedia, analise-a em um DOM e selecione as manchetes da seção Nas Notícias em uma lista de Elementos:
Document doc = Jsoup . connect ( "https://en.wikipedia.org/" ). get ();
log ( doc . title ());
Elements newsHeadlines = doc . select ( "#mp-itn b a" );
for ( Element headline : newsHeadlines ) {
log ( "%s n t %s" ,
headline . attr ( "title" ), headline . absUrl ( "href" ));
}
Amostra online, fonte completa.
jsoup é um projeto de código aberto distribuído sob a licença liberal do MIT. O código-fonte está disponível no GitHub.
Quando usado em projetos Android, a simplificação da biblioteca principal com a especificação NIO deve ser habilitada para oferecer suporte aos recursos Java 8+.
Se você tiver alguma dúvida sobre como usar o jsoup ou tiver ideias para desenvolvimento futuro, entre em contato através das discussões do jsoup.
Se você encontrar algum problema, registre um bug após verificar se há duplicatas.
O colofão fala sobre a história e as ferramentas usadas para construir o jsoup.
jsoup é, em geral, uma versão estável.