Beanbun
1.0.4
Beanbun 是一個簡單可擴展的爬蟲框架,支援分散式,支援守護程式模式與普通模式,守護程式模式基於Workerman,下載器基於Guzzle。
https://github.com/kiddyuchina/Beanbun/blob/master/docs/chs/README.md
推薦最近發現的一個很好用的全球代理商:SmartProxy
專業海外http代理商,有1億真實住宅IP資源,覆蓋全球,高匿穩定提供100%原生住宅IP,支援社交帳戶、電商平台、網路資料收集等服務。
匿名性很好,偽裝度很高,IP限制問題輕鬆解決。
本人測試用過之後感覺很不錯。
現春季價格優惠,動態住宅代理只要65折!
支援守護程式與普通兩種模式(守護程式模式只支援Linux 伺服器)
預設使用guzzle 進行爬取
支援分散式
支援記憶體、Redis 等多種佇列方式
支援自訂URI過濾
支援廣度優先和深度優先兩種爬取方式
遵循PSR-4 標準
爬取網頁分為多步,每步支援自訂動作(如新增代理、修改user-agent 等)
靈活的擴充機制,可方便的為框架製作外掛程式:自訂佇列、自訂爬取方式...
Beanbun 可以透過composer 進行安裝。
$ composer require kiddyu/beanbun
建立一個檔案start.php,包含以下內容
<?phpuse BeanbunBeanbun;$beanbun = new Beanbun;$beanbun->seed = [ 'http://www.950d.com/', 'http://www.950d.com/list-1.html', ' http://www.950d.com/list-2.html', ];$beanbun->afterDownloadPage = function($beanbun) { file_put_contents(__DIR__ . '/' . md5($beanbun->url), $beanbun->page); };$beanbun->start();
在命令列中執行
$ php start.php
接下來就可以看到抓取的日誌了。
beanbun-parser 資料擷取外掛程式https://github.com/kiddyuchina/beanbun-parser
更多詳細內容,請查看文檔