WebMagic (Java クローラー フレームワーク) v0.7.2
v0
Webmagic は完全なモジュール設計を採用しており、その機能はクローラーのライフサイクル全体 (リンク抽出、ページのダウンロード、コンテンツ抽出、永続化) をカバーし、マルチスレッド クローリング、分散クローリング、自動再試行、カスタマイズされた UA/Cookie などの機能をサポートしています。
ウェブマジックの主な機能1. 完全なモジュール設計と強力な拡張性。
2. コアはシンプルですが、クローラーのプロセス全体をカバーしており、柔軟かつ強力であり、クローラーの使い方を学ぶのにも適しています。
3. 豊富な抽出ページ API を提供します。
4. 構成は必要ありませんが、POJO + アノテーションを通じてクローラを実装できます。
5. マルチスレッドをサポートします。
6. 配布をサポートします。
7. js で動的にレンダリングされたページのクロールをサポートします。
8. フレームワークへの依存がなく、プロジェクトに柔軟に組み込むことができます。
WebMagic (Java クローラー フレームワーク) ページの表示