SeimiCrawler

CMS-System

v0

Keine Ressourcen verfügbar

SeimiCrawler (Java-Crawler-Framework)-Update

Unterstützt das Anpassen des Headers dieser Anfrage über den Header (Map) im Request-Objekt und das Anpassen von Cookies über seimiCookies. Die angepassten Cookies gelangen direkt in den CookiesStore und sind weiterhin für die zweite Anfrage in derselben Domäne gültig.

Optimieren Sie den Standardstartmodus, ändern Sie cn.wanghaomiao.seimi.boot.Run, um CommandLineParser zu unterstützen. Sie können -c und -p zum Übergeben von Parametern verwenden, wobei -c zum Angeben von Crawlernamen verwendet wird. Vielfache werden durch „,“ und getrennt -p gibt einen Port an. Sie können einen eingebetteten http-Dienst selektiv starten und die Verwendung der eingebetteten http-Schnittstelle aktivieren.

Das Maven-Compiler-Plugin-Paketierungs-Plugin wurde auf 1.3.0 aktualisiert, das Skript unter Linux wurde verbessert und die Startkonfigurationsdatei wurde hinzugefügt. Sie können es im Detail auf der Maven-Compiler-Plugin-Homepage anzeigen.

Der Standard-Downloader wird in ApacheHttpclient geändert, und die Sicherung ist die OkHttp3-Implementierung des Downloaders

Optimieren Sie etwas Code

Standardmäßig werden alle Demo-Protokolle an die Konsole ausgegeben.

Einführung in SeimiCrawler (Java-Crawler-Framework)

SeimiCrawler ist ein agiles, unabhängig bereitgestelltes, verteiltes Java-Crawler-Framework. Es soll die Schwelle für die Entwicklung eines Crawler-Systems mit hoher Verfügbarkeit und guter Leistung minimieren und die Entwicklungseffizienz der Crawler-Systementwicklung verbessern. In der Welt von SeimiCrawler müssen sich die meisten Menschen nur darum kümmern, die Geschäftslogik des Crawlings zu schreiben, und Seimi erledigt den Rest für Sie. In Bezug auf das Designkonzept ist SeimiCrawler vom Python-Crawler-Framework Scrapy inspiriert. Es integriert auch die Eigenschaften der Java-Sprache selbst und die Eigenschaften von Spring. Es hofft, die Verwendung eines effizienteren XPath zum Parsen von HTML zu vereinfachen Daher ist der Standard-HTML-Parser von SeimiCrawler JsoupXpath (ein unabhängiges Erweiterungsprojekt, das nicht in jsoup enthalten ist) und verwendet standardmäßig XPath zum Parsen und Extrahieren von HTML-Daten (natürlich können Sie auch andere Parser für die Datenverarbeitung auswählen). Und in Kombination mit SeimiAgent löst es das Problem des komplexen dynamischen Renderns und Crawlens von Seiten vollständig und perfekt.

Anzeige von SeimiCrawler (Java-Crawler-Framework).

Expandieren

Zusätzliche Informationen