phpspider 다운로드 - phpspider 소스 코드 다운로드

phpspider

기타 카테고리

2.1.7

다운로드

phpspider – PHP 스파이더 크롤러 프레임워크

"나는 PHP가 세계 최고의 언어라는 것을 증명하기 위해 크롤러를 사용하여 하루 만에 백만 명의 Zhihu 사용자를 "훔쳤습니다"

phpspider는 크롤러 개발 프레임워크입니다. 이 프레임워크를 사용하면 크롤러의 기본 기술 구현을 이해할 필요가 없습니다. 크롤러는 웹사이트에 의해 차단되며 일부 웹사이트에서는 크롤링하려면 로그인 또는 확인 코드 인식이 필요합니다. 단 몇 줄의 PHP 코드만으로 자신만의 크롤러를 만들 수 있습니다. 프레임워크에 캡슐화된 다중 프로세스 Worker 클래스 라이브러리를 사용하면 코드가 더 간단해지고 실행 효율성이 더 높아지고 빨라집니다.

데모 디렉토리에는 특정 웹사이트에 대한 몇 가지 크롤링 규칙이 있습니다. PHP 환경이 설치되어 있으면 명령줄에서 직접 코드를 실행할 수 있습니다. 크롤러에 관심이 있는 개발자는 QQ 그룹에 가입하여 147824717에 대해 토론할 수 있습니다.

크롤러가 어떻게 생겼는지 알아보기 위해 당황스러운 백과사전을 예로 들어보겠습니다.

$configs = array(
    'name' => '糗事百科',
    'domains' => array(
        'qiushibaike.com',
        'www.qiushibaike.com'
    ),
    'scan_urls' => array(
        'http://www.qiushibaike.com/'
    ),
    'content_url_regexes' => array(
        "http://www.qiushibaike.com/article/d+"
    ),
    'list_url_regexes' => array(
        "http://www.qiushibaike.com/8hr/page/d+?s=d+"
    ),
    'fields' => array(
        array(
            // 抽取内容页的文章内容
            'name' => "article_content",
            'selector' => "//*[@id='single-next-link']",
            'required' => true
        ),
        array(
            // 抽取内容页的文章作者
            'name' => "article_author",
            'selector' => "//div[contains(@class,'author')]//h2",
            'required' => true
        ),
    ),
);
$spider = new phpspider($configs);
$spider->start();

크롤러의 전체 프레임워크는 다음과 같습니다. 먼저 크롤링할 웹사이트에 대한 일부 정보를 설정하는 $configs 배열을 정의하고 $spider = new phpspider($configs); $spider->start(); 크롤러를 시작합니다.