jsoup es una biblioteca de Java que facilita el trabajo con HTML y XML del mundo real. Ofrece una API fácil de usar para la obtención de URL, el análisis, la extracción y la manipulación de datos mediante métodos API DOM, CSS y selectores xpath.
jsoup implementa la especificación WHATWG HTML5 y analiza HTML en el mismo DOM que los navegadores modernos.
jsoup está diseñado para manejar todas las variedades de HTML que se encuentran en la naturaleza; desde prístino y validador hasta sopa de etiquetas no válidas; jsoup creará un árbol de análisis sensato.
Consulte jsoup.org para descargas y la documentación completa de la API.
Busque la página de inicio de Wikipedia, analícela en un DOM y seleccione los titulares de la sección En las noticias en una lista de Elementos:
Document doc = Jsoup . connect ( "https://en.wikipedia.org/" ). get ();
log ( doc . title ());
Elements newsHeadlines = doc . select ( "#mp-itn b a" );
for ( Element headline : newsHeadlines ) {
log ( "%s n t %s" ,
headline . attr ( "title" ), headline . absUrl ( "href" ));
}
Muestra en línea, fuente completa.
jsoup es un proyecto de código abierto distribuido bajo la licencia liberal del MIT. El código fuente está disponible en GitHub.
Cuando se utiliza en proyectos de Android, la biblioteca principal desazucarada con la especificación NIO debe habilitarse para admitir funciones de Java 8+.
Si tiene alguna pregunta sobre cómo utilizar jsoup o tiene ideas para desarrollo futuro, póngase en contacto a través de jsoup Discussions.
Si encuentra algún problema, presente un informe de error después de buscar duplicados.
El colofón habla sobre la historia y las herramientas utilizadas para construir jsoup.
jsoup es, en general, una versión estable.