Webmagic имеет полностью модульную конструкцию, а его функции охватывают весь жизненный цикл сканера (извлечение ссылок, загрузка страниц, извлечение контента, сохранение), поддерживает многопоточное сканирование, распределенное сканирование, автоматическую повторную попытку, а также настраиваемые UA/Cookies и другие функции.
Основные возможности вебмагии1. Полностью модульная конструкция и высокая масштабируемость.
2. Ядро простое, но охватывает весь процесс работы сканеров. Оно гибкое и мощное, а также является хорошим материалом для изучения того, как начать работу с сканерами.
3. Предоставьте богатый API страницы извлечения.
4. Никакой настройки, но сканер можно реализовать с помощью аннотаций POJO+.
5. Поддержка многопоточности.
6. Поддержка распространения.
7. Поддержка сканирования динамически отображаемых страниц js.
8. Отсутствие зависимостей от фреймворка, возможность гибкого внедрения в проекты.
Отображение страницы WebMagic (фреймворк сканера Java)