pyspider Download - pyspider -Quellcode herunterladen

pyspider

Python

v0.3.10

Herunterladen

Pyspinne

Ein leistungsstarkes Spider-System (Web Crawler) in Python.

Schreiben Sie ein Skript in Python
Leistungsstarke WebUI mit Skripteditor, Aufgabenmonitor, Projektmanager und Ergebnisanzeige
MySQL, MongoDB, Redis, SQLite, Elasticsearch; PostgreSQL mit SQLAlchemy als Datenbank-Backend
RabbitMQ, Redis und Kombu als Nachrichtenwarteschlange
Aufgabenpriorität, Wiederholung, periodisch, erneutes Crawlen nach Alter usw.
Verteilte Architektur, Crawling von Javascript-Seiten, Python 2.{6,7}, 3.{3,4,5,6}-Unterstützung usw.

Tutorial: http://docs.pyspider.org/en/latest/tutorial/
Dokumentation: http://docs.pyspider.org/
Versionshinweise: https://github.com/binux/pyspider/releases

Beispielcode

 from pyspider . libs . base_handler import *


class Handler ( BaseHandler ):
    crawl_config = {
    }

    @ every ( minutes = 24 * 60 )
    def on_start ( self ):
        self . crawl ( 'http://scrapy.org/' , callback = self . index_page )

    @ config ( age = 10 * 24 * 60 * 60 )
    def index_page ( self , response ):
        for each in response . doc ( 'a[href^="http"]' ). items ():
            self . crawl ( each . attr . href , callback = self . detail_page )

    def detail_page ( self , response ):
        return {
            "url" : response . url ,
            "title" : response . doc ( 'title' ). text (),
        }

Installation

pip install pyspider
Führen Sie den Befehl pyspider aus und besuchen Sie http://localhost:5000/.

WARNUNG: WebUI ist standardmäßig öffentlich zugänglich und kann zum Ausführen aller Befehle verwendet werden, die Ihrem System schaden könnten. Bitte verwenden Sie es in einem internen Netzwerk oder aktivieren Sie need-auth für WebUI.

Schnellstart: http://docs.pyspider.org/en/latest/Quickstart/