jsoup est une bibliothèque Java qui facilite le travail avec du HTML et du XML réels. Il offre une API facile à utiliser pour la récupération d'URL, l'analyse, l'extraction et la manipulation de données à l'aide des méthodes API DOM, des sélecteurs CSS et XPath.
jsoup implémente la spécification WHATWG HTML5 et analyse le HTML selon le même DOM que les navigateurs modernes.
jsoup est conçu pour gérer toutes les variétés de HTML trouvées dans la nature ; de l'état vierge et en cours de validation à la soupe de balises invalide ; jsoup créera un arbre d'analyse sensé.
Voir jsoup.org pour les téléchargements et la documentation complète de l'API.
Récupérez la page d'accueil de Wikipédia, analysez-la dans un DOM et sélectionnez les titres de la section Dans l'actualité dans une liste d'éléments :
Document doc = Jsoup . connect ( "https://en.wikipedia.org/" ). get ();
log ( doc . title ());
Elements newsHeadlines = doc . select ( "#mp-itn b a" );
for ( Element headline : newsHeadlines ) {
log ( "%s n t %s" ,
headline . attr ( "title" ), headline . absUrl ( "href" ));
}
Échantillon en ligne, source complète.
jsoup est un projet open source distribué sous la licence libérale MIT. Le code source est disponible sur GitHub.
Lorsqu'elle est utilisée dans des projets Android, la bibliothèque principale désucrée avec la spécification NIO doit être activée pour prendre en charge les fonctionnalités Java 8+.
Si vous avez des questions sur l'utilisation de jsoup ou si vous avez des idées de développement futur, veuillez nous contacter via les discussions jsoup.
Si vous rencontrez des problèmes, veuillez signaler un bug après avoir vérifié les doublons.
Le colophon parle de l'histoire et des outils utilisés pour construire jsoup.
jsoup est en général une version stable.