phpspider
2.1.7
"나는 PHP가 세계 최고의 언어라는 것을 증명하기 위해 크롤러를 사용하여 하루 만에 백만 명의 Zhihu 사용자를 "훔쳤습니다"
phpspider는 크롤러 개발 프레임워크입니다. 이 프레임워크를 사용하면 크롤러의 기본 기술 구현을 이해할 필요가 없습니다. 크롤러는 웹사이트에 의해 차단되며 일부 웹사이트에서는 크롤링하려면 로그인 또는 확인 코드 인식이 필요합니다. 단 몇 줄의 PHP 코드만으로 자신만의 크롤러를 만들 수 있습니다. 프레임워크에 캡슐화된 다중 프로세스 Worker 클래스 라이브러리를 사용하면 코드가 더 간단해지고 실행 효율성이 더 높아지고 빨라집니다.
데모 디렉토리에는 특정 웹사이트에 대한 몇 가지 크롤링 규칙이 있습니다. PHP 환경이 설치되어 있으면 명령줄에서 직접 코드를 실행할 수 있습니다. 크롤러에 관심이 있는 개발자는 QQ 그룹에 가입하여 147824717에 대해 토론할 수 있습니다.
크롤러가 어떻게 생겼는지 알아보기 위해 당황스러운 백과사전을 예로 들어보겠습니다.
$configs = array( 'name' => '糗事百科', 'domains' => array( 'qiushibaike.com', 'www.qiushibaike.com' ), 'scan_urls' => array( 'http://www.qiushibaike.com/' ), 'content_url_regexes' => array( "http://www.qiushibaike.com/article/d+" ), 'list_url_regexes' => array( "http://www.qiushibaike.com/8hr/page/d+?s=d+" ), 'fields' => array( array( // 抽取内容页的文章内容 'name' => "article_content", 'selector' => "//*[@id='single-next-link']", 'required' => true ), array( // 抽取内容页的文章作者 'name' => "article_author", 'selector' => "//div[contains(@class,'author')]//h2", 'required' => true ), ), ); $spider = new phpspider($configs); $spider->start();
크롤러의 전체 프레임워크는 다음과 같습니다. 먼저 크롤링할 웹사이트에 대한 일부 정보를 설정하는 $configs 배열을 정의하고 $spider = new phpspider($configs);
$spider->start();
크롤러를 시작합니다.
자세한 내용은 다음을 참조하세요.
개발 문서