jsoup
jsoup-1.18.3
jsoup是一个 Java 库,可以轻松使用现实世界的 HTML 和 XML。它提供了一个易于使用的 API,用于使用 DOM API 方法、CSS 和 xpath 选择器进行 URL 获取、数据解析、提取和操作。
jsoup实现了 WHATWG HTML5 规范,并将 HTML 解析为与现代浏览器相同的 DOM。
jsoup 旨在处理各种常见的 HTML;从原始和验证,到无效的标签汤; jsoup 将创建一个合理的解析树。
请访问jsoup.org获取下载和完整的 API 文档。
获取 Wikipedia 主页,将其解析为 DOM,然后从In the News部分选择标题到元素列表中:
Document doc = Jsoup . connect ( "https://en.wikipedia.org/" ). get ();
log ( doc . title ());
Elements newsHeadlines = doc . select ( "#mp-itn b a" );
for ( Element headline : newsHeadlines ) {
log ( "%s n t %s" ,
headline . attr ( "title" ), headline . absUrl ( "href" ));
}
在线示例,完整源代码。
jsoup 是一个根据 MIT 自由许可证分发的开源项目。源代码可在 GitHub 上获取。
在Android项目中使用时,应启用NIO规范的核心库脱糖以支持Java 8+功能。
如果您对如何使用 jsoup 有任何疑问,或者对未来的开发有想法,请通过 jsoup 讨论与我们联系。
如果您发现任何问题,请在检查重复项后提交错误。
版权页讲述了构建 jsoup 的历史和使用的工具。
jsoup 是一般的稳定版本。