支援在Request物件中,透過header(map)來自訂本次請求的header,以及支援透過seimiCookies來自訂cookies,自訂cookies會直接進入cookiesStore,對同域下第二次請求依然有效
優化預設啟動方式,改造cn.wanghaomiao.seimi.boot.Run支援CommandLineParser,可以使用-c和-p來傳參,其中-c用來指定crawlernames,多個用','分隔,-p指定一個端口,可以選擇性的啟動一個內嵌的http服務,並開啟使用內嵌http接口
maven-compiler-plugin打包插件升級為1.3.0,完善Linux下的腳本,並增加啟動配置文件,可以到maven-compiler-plugin主頁詳細查看
預設下載器改為ApacheHttpclient,備用為下載器OkHttp3實現
優化部分程式碼
demo日誌預設全部輸出至控制台
SeimiCrawler(Java爬蟲框架)簡介SeimiCrawler是一個敏捷的,獨立部署的,支援分散式的Java爬蟲框架,希望能在最大程度上降低新手開發一個可用性高且性能不差的爬蟲系統的門檻,以及提升開發爬蟲系統的開發效率。在SeimiCrawler的世界裡,絕大多數人只需關心去寫抓取的業務邏輯就夠了,其餘的Seimi幫你搞定。設計思想上SeimiCrawler受Python的爬蟲框架Scrapy啟發,同時融合了Java語言本身特點與Spring的特性,並希望在國內更方便且普遍的使用更有效率的XPath解析HTML,所以SeimiCrawler預設的HTML解析器是JsoupXpath(獨立擴充項目,非jsoup自帶),預設解析擷取HTML資料工作皆使用XPath來完成(當然,資料處理亦可自行選擇其他解析器)。並結合SeimiAgent徹底完美解決複雜動態頁面渲染抓取問題。
SeimiCrawler(Java爬蟲框架)展示