pyspider 다운로드 - pyspider 소스 코드 다운로드

pyspider

파이썬

v0.3.10

다운로드

스파이더

Python의 강력한 스파이더(웹 크롤러) 시스템.

Python으로 스크립트 작성
스크립트 편집기, 작업 모니터, 프로젝트 관리자 및 결과 뷰어를 갖춘 강력한 WebUI
MySQL, MongoDB, Redis, SQLite, Elasticsearch; SQLAlchemy를 데이터베이스 백엔드로 사용하는 PostgreSQL
RabbitMQ, Redis 및 Kombu를 메시지 대기열로 사용
작업 우선순위, 재시도, 정기, 연령별 재크롤링 등...
분산 아키텍처, 크롤링 Javascript 페이지, Python 2.{6,7}, 3.{3,4,5,6} 지원 등...

튜토리얼: http://docs.pyspider.org/en/latest/tutorial/
문서: http://docs.pyspider.org/
릴리스 노트: https://github.com/binux/pyspider/releases

샘플 코드

 from pyspider . libs . base_handler import *


class Handler ( BaseHandler ):
    crawl_config = {
    }

    @ every ( minutes = 24 * 60 )
    def on_start ( self ):
        self . crawl ( 'http://scrapy.org/' , callback = self . index_page )

    @ config ( age = 10 * 24 * 60 * 60 )
    def index_page ( self , response ):
        for each in response . doc ( 'a[href^="http"]' ). items ():
            self . crawl ( each . attr . href , callback = self . detail_page )

    def detail_page ( self , response ):
        return {
            "url" : response . url ,
            "title" : response . doc ( 'title' ). text (),
        }