jsoup — это библиотека Java, которая упрощает работу с реальными HTML и XML. Он предлагает простой в использовании API для получения URL-адресов, анализа, извлечения и манипулирования данными с использованием методов DOM API, CSS и селекторов xpath.
jsoup реализует спецификацию WHATWG HTML5 и анализирует HTML в ту же модель DOM, что и современные браузеры.
jsoup предназначен для работы со всеми распространенными вариантами HTML; от безупречного и валидирующего до недействительного супа-тегов; jsoup создаст разумное дерево разбора.
Посетите jsoup.org для загрузки и полной документации по API.
Получите домашнюю страницу Википедии, преобразуйте ее в DOM и выберите заголовки из раздела «В новостях» в список элементов:
Document doc = Jsoup . connect ( "https://en.wikipedia.org/" ). get ();
log ( doc . title ());
Elements newsHeadlines = doc . select ( "#mp-itn b a" );
for ( Element headline : newsHeadlines ) {
log ( "%s n t %s" ,
headline . attr ( "title" ), headline . absUrl ( "href" ));
}
Онлайн-пример, полный исходный код.
jsoup — проект с открытым исходным кодом, распространяемый по либеральной лицензии MIT. Исходный код доступен на GitHub.
При использовании в проектах Android необходимо включить очистку базовой библиотеки с помощью спецификации NIO для поддержки функций Java 8+.
Если у вас есть какие-либо вопросы о том, как использовать jsoup, или у вас есть идеи для будущего развития, свяжитесь с нами через обсуждения jsoup.
Если вы обнаружите какие-либо проблемы, сообщите об ошибке после проверки на наличие дубликатов.
В колофоне рассказывается об истории и инструментах, использованных для создания jsoup.
jsoup в целом является стабильной версией.