Webmagic adota um design completamente modular e suas funções cobrem todo o ciclo de vida do rastreador (extração de link, download de página, extração de conteúdo, persistência), suporta rastreamento multithread, rastreamento distribuído, nova tentativa automática e UA/Cookies personalizados e outras funções.
Principais características do webmagic1. Design totalmente modular e forte escalabilidade.
2. O núcleo é simples, mas cobre todo o processo de rastreadores. É flexível e poderoso e também é um bom material para aprender como começar a usar rastreadores.
3. Fornece API de página de extração rica.
4. Nenhuma configuração, mas um rastreador pode ser implementado por meio de anotações POJO+.
5. Suporte multithread.
6. Distribuição de apoio.
7. Suporte ao rastreamento de páginas js renderizadas dinamicamente.
8. Não há dependências de estrutura e pode ser incorporado de forma flexível em projetos.
Exibição da página WebMagic (estrutura do rastreador Java)