Request オブジェクトのヘッダー (マップ) によるこのリクエストのヘッダーのカスタマイズをサポートし、seimiCookies による Cookie のカスタマイズをサポートします。カスタマイズされた Cookie は cookiesStore に直接入力され、同じドメイン内の 2 番目のリクエストでも引き続き有効です。
デフォルトの起動モードを最適化し、CommandLineParser をサポートするように cn.wanghaomiao.seimi.boot.Run を変更します。パラメーターを渡すには -c と -p を使用できます。-c はクローラー名の指定に使用されます。複数は「,」で区切られます。 -p はポートを指定し、組み込み http サービスを選択的に開始し、組み込み http インターフェースの使用を有効にすることができます。
maven-compiler-plugin パッケージング プラグインが 1.3.0 にアップグレードされ、Linux 上のスクリプトが改善され、起動設定ファイルが追加されました。詳しくは、maven-compiler-plugin ホームページでご覧ください。
デフォルトのダウンローダーは ApacheHttpclient に変更され、バックアップはダウンローダー OkHttp3 実装です
一部のコードを最適化する
デフォルトでは、すべてのデモ ログがコンソールに出力されます。
SeimiCrawler (Java クローラー フレームワーク) の概要SeimiCrawler は、アジャイルで独立して展開される分散型 Java クローラー フレームワークであり、初心者が高可用性と優れたパフォーマンスを備えたクローラー システムを開発する敷居を最小限に抑え、クローラー システム開発の開発効率を向上させることを目的としています。 SeimiCrawler の世界では、ほとんどの人はクローリングのビジネス ロジックを書くことだけを気にする必要があり、残りは Seimi が処理します。 SeimiCrawler は、設計コンセプトの点で、Python のクローラー フレームワーク Scrapy からインスピレーションを受けており、Java 言語自体の特性と Spring の特性を統合しており、より効率的な XPath を使用して HTML を解析できるようにすることを目指しています。したがって、seimiCrawler のデフォルトの HTML パーサーは JsoupXpath (jsoup には含まれていない独立した拡張プロジェクト) であり、デフォルトで XPath を使用して HTML データを解析および抽出します (もちろん、データ処理に他のパーサーを選択することもできます)。また、seimiAgent と組み合わせることで、複雑な動的ページのレンダリングとクロールの問題を完全かつ完璧に解決します。
SeimiCrawler(Javaクローラーフレームワーク)表示