phpspider下載 - phpspider原始碼下載

phpspider

其他類別

2.1.7

下載

phpspider -- PHP蜘蛛爬蟲框架

《我用爬蟲一天時間「偷了」知乎一百萬用戶，只為證明PHP是世界上最好的語言》所使用的程序

phpspider是一個爬蟲開發框架。使用本框架，你不用了解爬蟲的底層技術實現，爬蟲被網站屏蔽、有些網站需要登入或驗證碼識別才能爬取等問題。簡單幾行PHP程式碼，就可以創建自己的爬蟲，利用框架封裝的多進程Worker類別庫，程式碼更簡潔，執行效率更高速度更快。

demo目錄下有一些特定網站的爬取規則，只要你安裝了PHP環境，程式碼就可以在命令列下直接跑。對爬蟲有興趣的開發者可以加QQ群一起討論：147824717。

下面以糗事百科為例, 來看一下我們的爬蟲長什麼樣子:

$configs = array(
    'name' => '糗事百科',
    'domains' => array(
        'qiushibaike.com',
        'www.qiushibaike.com'
    ),
    'scan_urls' => array(
        'http://www.qiushibaike.com/'
    ),
    'content_url_regexes' => array(
        "http://www.qiushibaike.com/article/d+"
    ),
    'list_url_regexes' => array(
        "http://www.qiushibaike.com/8hr/page/d+?s=d+"
    ),
    'fields' => array(
        array(
            // 抽取内容页的文章内容
            'name' => "article_content",
            'selector' => "//*[@id='single-next-link']",
            'required' => true
        ),
        array(
            // 抽取内容页的文章作者
            'name' => "article_author",
            'selector' => "//div[contains(@class,'author')]//h2",
            'required' => true
        ),
    ),
);
$spider = new phpspider($configs);
$spider->start();

爬蟲的整體框架就是這樣, 首先定義了一個$configs數組, 裡面設置了待爬網站的一些信息, 然後通過調用$spider = new phpspider($configs);和$spider->start();來配置並啟動爬蟲.