"Usé un rastreador para" robar "un millón de usuarios de Zhihu en un día, solo para demostrar que PHP es el mejor lenguaje del mundo"
phpspider es un marco de desarrollo de rastreadores. Al utilizar este marco, no es necesario comprender la implementación de la tecnología subyacente del rastreador. El sitio web bloquea el rastreador y algunos sitios web requieren el reconocimiento de código de verificación o inicio de sesión para rastrear. Con solo unas pocas líneas de código PHP, puede crear su propio rastreador. Utilizando la biblioteca de clase Worker multiproceso encapsulada por el marco, el código es más simple y la eficiencia de ejecución es mayor y más rápida.
Existen algunas reglas de rastreo para sitios web específicos en el directorio de demostración. Siempre que tenga instalado un entorno PHP, el código se puede ejecutar directamente en la línea de comando. Los desarrolladores interesados en los rastreadores pueden unirse al grupo QQ para discutir: 147824717.
Tomemos la Enciclopedia de historias embarazosas como ejemplo para ver cómo se ve nuestro rastreador:
$configs = array( 'name' => '糗事百科', 'domains' => array( 'qiushibaike.com', 'www.qiushibaike.com' ), 'scan_urls' => array( 'http://www.qiushibaike.com/' ), 'content_url_regexes' => array( "http://www.qiushibaike.com/article/d+" ), 'list_url_regexes' => array( "http://www.qiushibaike.com/8hr/page/d+?s=d+" ), 'fields' => array( array( // 抽取内容页的文章内容 'name' => "article_content", 'selector' => "//*[@id='single-next-link']", 'required' => true ), array( // 抽取内容页的文章作者 'name' => "article_author", 'selector' => "//div[contains(@class,'author')]//h2", 'required' => true ), ), ); $spider = new phpspider($configs); $spider->start();
El marco general del rastreador es así: primero, se define una matriz $configs, que establece cierta información sobre el sitio web que se va a rastrear, luego se configura y configura llamando $spider = new phpspider($configs);
$spider->start();
Inicia el rastreador.
Para más detalles, vaya a:
Documentación de desarrollo