Webmagic adopta un diseño completamente modular y sus funciones cubren todo el ciclo de vida del rastreador (extracción de enlaces, descarga de páginas, extracción de contenido, persistencia), admite rastreo multiproceso, rastreo distribuido, reintento automático y UA/Cookies personalizadas y otras funciones.
Características principales de webmagic 1. Diseño completamente modular y gran escalabilidad.
2. El núcleo es simple pero cubre todo el proceso de los rastreadores. Es flexible y poderoso y también es un buen material para aprender cómo comenzar con los rastreadores.
3. Proporcionar API de página de extracción enriquecida.
4. Sin configuración, pero se puede implementar un rastreador mediante anotaciones POJO+.
5. Admite subprocesos múltiples.
6. Distribución de apoyo.
7. Admite el rastreo de páginas js renderizadas dinámicamente.
8. No hay dependencias del marco y se puede integrar de manera flexible en los proyectos.