Webmagic adopte une conception entièrement modulaire et ses fonctions couvrent tout le cycle de vie du robot (extraction de lien, téléchargement de page, extraction de contenu, persistance), prend en charge l'exploration multithread, l'exploration distribuée, la nouvelle tentative automatique et les UA/Cookies personnalisés et d'autres fonctions.
Principales fonctionnalités de la webmagic1. Conception entièrement modulaire et forte évolutivité.
2. Le noyau est simple mais couvre l’ensemble du processus des robots d’exploration. Il est flexible et puissant et constitue également un bon matériel pour apprendre à démarrer avec les robots d’exploration.
3. Fournissez une API de page d'extraction riche.
4. Aucune configuration, mais un robot peut être implémenté via POJO+annotations.
5. Prise en charge du multithread.
6. Prise en charge de la distribution.
7. Prise en charge de l'exploration des pages js rendues dynamiquement.
8. Aucune dépendance de framework et peut être intégré de manière flexible dans les projets.
Affichage de la page WebMagic (Java crawler framework)