phpspider
2.1.7
《我用爬蟲一天時間「偷了」知乎一百萬用戶,只為證明PHP是世界上最好的語言》所使用的程序
phpspider是一個爬蟲開發框架。使用本框架,你不用了解爬蟲的底層技術實現,爬蟲被網站屏蔽、有些網站需要登入或驗證碼識別才能爬取等問題。簡單幾行PHP程式碼,就可以創建自己的爬蟲,利用框架封裝的多進程Worker類別庫,程式碼更簡潔,執行效率更高速度更快。
demo目錄下有一些特定網站的爬取規則,只要你安裝了PHP環境,程式碼就可以在命令列下直接跑。 對爬蟲有興趣的開發者可以加QQ群一起討論:147824717。
下面以糗事百科為例, 來看一下我們的爬蟲長什麼樣子:
$configs = array( 'name' => '糗事百科', 'domains' => array( 'qiushibaike.com', 'www.qiushibaike.com' ), 'scan_urls' => array( 'http://www.qiushibaike.com/' ), 'content_url_regexes' => array( "http://www.qiushibaike.com/article/d+" ), 'list_url_regexes' => array( "http://www.qiushibaike.com/8hr/page/d+?s=d+" ), 'fields' => array( array( // 抽取内容页的文章内容 'name' => "article_content", 'selector' => "//*[@id='single-next-link']", 'required' => true ), array( // 抽取内容页的文章作者 'name' => "article_author", 'selector' => "//div[contains(@class,'author')]//h2", 'required' => true ), ), ); $spider = new phpspider($configs); $spider->start();
爬蟲的整體框架就是這樣, 首先定義了一個$configs數組, 裡面設置了待爬網站的一些信息, 然後通過調用$spider = new phpspider($configs);
和$spider->start();
來配置並啟動爬蟲.
更多詳細內容,移步到:
開發文件