pyspider
v0.3.10
ระบบ Spider (Web Crawler) อันทรงพลังใน Python
บทช่วยสอน: http://docs.pyspider.org/en/latest/tutorial/
เอกสารประกอบ: http://docs.pyspider.org/
บันทึกประจำรุ่น: https://github.com/binux/pyspider/releases
from pyspider . libs . base_handler import *
class Handler ( BaseHandler ):
crawl_config = {
}
@ every ( minutes = 24 * 60 )
def on_start ( self ):
self . crawl ( 'http://scrapy.org/' , callback = self . index_page )
@ config ( age = 10 * 24 * 60 * 60 )
def index_page ( self , response ):
for each in response . doc ( 'a[href^="http"]' ). items ():
self . crawl ( each . attr . href , callback = self . detail_page )
def detail_page ( self , response ):
return {
"url" : response . url ,
"title" : response . doc ( 'title' ). text (),
}
pip install pyspider
pyspider
ไปที่ http://localhost:5000/ คำเตือน: WebUI เปิดให้บุคคลทั่วไปเข้าชมโดยค่าเริ่มต้น สามารถใช้เพื่อดำเนินการคำสั่งใด ๆ ที่อาจเป็นอันตรายต่อระบบของคุณ โปรดใช้ในเครือข่ายภายในหรือเปิดใช้งาน need-auth
สำหรับ webui
การเริ่มต้นอย่างรวดเร็ว: http://docs.pyspider.org/en/latest/Quickstart/
ได้รับอนุญาตภายใต้ Apache License เวอร์ชัน 2.0