phpspider
2.1.7
「私は、PHP が世界で最高の言語であることを証明するためだけに、クローラーを使用して 1 日で 100 万人の Zhihu ユーザーを「盗み」ました。」
phpspider はクローラー開発フレームワークです。このフレームワークを使用すると、クローラーの基盤となるテクノロジーの実装を理解する必要がなく、クローラーは Web サイトによってブロックされ、一部の Web サイトではクロールするためにログインまたは検証コードの認識が必要になります。フレームワークによってカプセル化されたマルチプロセス Worker クラス ライブラリを使用すると、わずか数行の PHP コードで独自のクローラーを作成でき、コードはよりシンプルになり、実行効率がより高く、より高速になります。
PHP 環境がインストールされている限り、デモ ディレクトリには特定の Web サイトに対するいくつかのクロール ルールがあり、コードはコマンド ラインで直接実行できます。 クローラーに興味のある開発者は、QQ グループに参加して議論できます: 147824717。
恥ずかしい百科事典を例として、クローラーがどのようなものかを見てみましょう。
$configs = array( 'name' => '糗事百科', 'domains' => array( 'qiushibaike.com', 'www.qiushibaike.com' ), 'scan_urls' => array( 'http://www.qiushibaike.com/' ), 'content_url_regexes' => array( "http://www.qiushibaike.com/article/d+" ), 'list_url_regexes' => array( "http://www.qiushibaike.com/8hr/page/d+?s=d+" ), 'fields' => array( array( // 抽取内容页的文章内容 'name' => "article_content", 'selector' => "//*[@id='single-next-link']", 'required' => true ), array( // 抽取内容页的文章作者 'name' => "article_author", 'selector' => "//div[contains(@class,'author')]//h2", 'required' => true ), ), ); $spider = new phpspider($configs); $spider->start();
クローラーの全体的なフレームワークは次のようになります。まず、クロールする Web サイトに関する情報を設定する $configs 配列を定義します。次に、 $spider = new phpspider($configs);
呼び出して設定します。 $spider->start();
クローラーを開始します。
詳細については、次のサイトを参照してください。
開発ドキュメント