WebMagic(Java爬蟲框架) v0.7.2
v0
webmagic採用完全模組化的設計,功能涵蓋整個爬蟲的生命週期(連結提取、頁面下載、內容抽取、持久化),支援多執行緒抓取,分散式抓取,並支援自動重試、自訂UA/ cookie等功能。
webmagic的主要特色1、完全模組化的設計,強大的可擴充性。
2.核心簡單但是涵蓋爬蟲的全部流程,靈活而強大,也是學習爬蟲入門的好材料。
3、提供豐富的抽取頁面API。
4、無配置,但是可透過POJO+註解形式實現一個爬蟲。
5、支援多執行緒。
6、支援分散式。
7.支援爬取js動態渲染的頁面。
8.無框架依賴,可以靈活的嵌入到專案中去。
WebMagic(Java爬蟲框架)頁面展示