pyspider
v0.3.10
Python의 강력한 스파이더(웹 크롤러) 시스템.
튜토리얼: http://docs.pyspider.org/en/latest/tutorial/
문서: http://docs.pyspider.org/
릴리스 노트: https://github.com/binux/pyspider/releases
from pyspider . libs . base_handler import *
class Handler ( BaseHandler ):
crawl_config = {
}
@ every ( minutes = 24 * 60 )
def on_start ( self ):
self . crawl ( 'http://scrapy.org/' , callback = self . index_page )
@ config ( age = 10 * 24 * 60 * 60 )
def index_page ( self , response ):
for each in response . doc ( 'a[href^="http"]' ). items ():
self . crawl ( each . attr . href , callback = self . detail_page )
def detail_page ( self , response ):
return {
"url" : response . url ,
"title" : response . doc ( 'title' ). text (),
}
pip install pyspider
pyspider
명령을 실행하고 http://localhost:5000/을 방문하세요. 경고: WebUI는 기본적으로 공개되어 있으며 시스템에 해를 끼칠 수 있는 모든 명령을 실행하는 데 사용될 수 있습니다. 내부 네트워크에서 사용하시거나 webui에 need-auth
활성화해주세요.
빠른 시작: http://docs.pyspider.org/en/latest/Quickstart/
Apache 라이센스 버전 2.0에 따라 라이센스가 부여되었습니다.