jsoup ist eine Java-Bibliothek, die die Arbeit mit realem HTML und XML vereinfacht. Es bietet eine benutzerfreundliche API zum Abrufen von URLs, zum Parsen, Extrahieren und Bearbeiten von Daten mithilfe von DOM-API-Methoden, CSS und XPath-Selektoren.
jsoup implementiert die WHATWG-HTML5-Spezifikation und analysiert HTML im selben DOM wie moderne Browser.
jsoup ist für den Umgang mit allen gängigen HTML-Varianten konzipiert. von makellos und validierend bis hin zu ungültiger Tag-Suppe; jsoup erstellt einen sinnvollen Analysebaum.
Downloads und die vollständige API-Dokumentation finden Sie unter jsoup.org .
Rufen Sie die Wikipedia-Homepage ab, parsen Sie sie in ein DOM und wählen Sie die Schlagzeilen aus dem Abschnitt „In den Nachrichten“ in einer Liste von Elementen aus:
Document doc = Jsoup . connect ( "https://en.wikipedia.org/" ). get ();
log ( doc . title ());
Elements newsHeadlines = doc . select ( "#mp-itn b a" );
for ( Element headline : newsHeadlines ) {
log ( "%s n t %s" ,
headline . attr ( "title" ), headline . absUrl ( "href" ));
}
Online-Beispiel, vollständige Quelle.
jsoup ist ein Open-Source-Projekt, das unter der liberalen MIT-Lizenz vertrieben wird. Der Quellcode ist auf GitHub verfügbar.
Bei Verwendung in Android-Projekten sollte die Entzuckerung der Kernbibliothek mit der NIO-Spezifikation aktiviert werden, um Java 8+-Funktionen zu unterstützen.
Wenn Sie Fragen zur Verwendung von jsoup haben oder Ideen für zukünftige Entwicklungen haben, wenden Sie sich bitte über jsoup-Diskussionen an uns.
Wenn Sie Probleme feststellen, melden Sie bitte einen Fehler, nachdem Sie nach Duplikaten gesucht haben.
Das Kolophon spricht über die Geschichte und die zum Erstellen von Jsoup verwendeten Tools.
jsoup ist im Allgemeinen eine stabile Version.