"J'ai utilisé un robot pour "voler" un million d'utilisateurs de Zhihu en une journée, juste pour prouver que PHP est le meilleur langage au monde"
phpspider est un framework de développement de robots. En utilisant ce cadre, vous n'avez pas besoin de comprendre la mise en œuvre technologique sous-jacente du robot d'exploration. Le robot d'exploration est bloqué par le site Web, et certains sites Web nécessitent une reconnaissance de code de connexion ou de vérification pour être explorés. Avec seulement quelques lignes de code PHP, vous pouvez créer votre propre robot d'exploration. En utilisant la bibliothèque de classes Worker multi-processus encapsulée par le framework, le code est plus simple et l'efficacité d'exécution est plus élevée et plus rapide.
Il existe certaines règles d'exploration pour des sites Web spécifiques dans le répertoire de démonstration. Tant qu'un environnement PHP est installé, le code peut être exécuté directement sur la ligne de commande. Les développeurs intéressés par les robots d'exploration peuvent rejoindre le groupe QQ pour en discuter : 147824717.
Prenons l'Encyclopédie des histoires embarrassantes comme exemple pour voir à quoi ressemble notre robot :
$configs = array( 'name' => '糗事百科', 'domains' => array( 'qiushibaike.com', 'www.qiushibaike.com' ), 'scan_urls' => array( 'http://www.qiushibaike.com/' ), 'content_url_regexes' => array( "http://www.qiushibaike.com/article/d+" ), 'list_url_regexes' => array( "http://www.qiushibaike.com/8hr/page/d+?s=d+" ), 'fields' => array( array( // 抽取内容页的文章内容 'name' => "article_content", 'selector' => "//*[@id='single-next-link']", 'required' => true ), array( // 抽取内容页的文章作者 'name' => "article_author", 'selector' => "//div[contains(@class,'author')]//h2", 'required' => true ), ), ); $spider = new phpspider($configs); $spider->start();
Le cadre global du robot est comme ceci. Tout d'abord, un tableau $configs est défini, qui définit certaines informations sur le site Web à explorer. Ensuite, il est configuré et configuré en appelant $spider = new phpspider($configs);
$spider->start();
Démarre le robot.
Pour plus de détails, rendez-vous sur :
Documentation de développement