Webmagic ist vollständig modular aufgebaut und seine Funktionen decken den gesamten Crawler-Lebenszyklus ab (Linkextraktion, Seitendownload, Inhaltsextraktion, Persistenz), unterstützt Multithread-Crawling, verteiltes Crawling, automatische Wiederholungen sowie benutzerdefinierte UA/Cookies und andere Funktionen.
Hauptfunktionen von Webmagic 1. Vollständig modularer Aufbau und starke Skalierbarkeit.
2. Der Kern ist einfach, deckt aber den gesamten Crawler-Prozess ab. Er ist flexibel und leistungsstark und eignet sich auch gut zum Erlernen des Einstiegs in Crawler.
3. Stellen Sie eine Rich-Extraction-Seiten-API bereit.
4. Keine Konfiguration, aber ein Crawler kann über POJO+Annotationen implementiert werden.
5. Unterstützt Multithreading.
6. Unterstützen Sie die Verteilung.
7. Unterstützt das Crawlen dynamisch gerenderter js-Seiten.
8. Keine Framework-Abhängigkeiten und flexibel in Projekte einbettbar.