Загрузка pyspider - Загрузка исходного кода pyspider

pyspider

Питон

v0.3.10

Скачать

пипаук

Мощная система Spider (Web Crawler) на Python.

Написать скрипт на Python
Мощный веб-интерфейс с редактором сценариев, монитором задач, менеджером проектов и средством просмотра результатов.
MySQL, MongoDB, Redis, SQLite, Elasticsearch; PostgreSQL с SQLAlchemy в качестве серверной части базы данных
RabbitMQ, Redis и Kombu как очередь сообщений
Приоритет задачи, повтор, периодичность, повторное сканирование по возрасту и т. д.
Распределенная архитектура, сканирование страниц Javascript, поддержка Python 2.{6,7}, 3.{3,4,5,6} и т. д.

Учебник: http://docs.pyspider.org/en/latest/tutorial/
Документация: http://docs.pyspider.org/.
Примечания к выпуску: https://github.com/binux/pyspider/releases.

Пример кода

 from pyspider . libs . base_handler import *


class Handler ( BaseHandler ):
    crawl_config = {
    }

    @ every ( minutes = 24 * 60 )
    def on_start ( self ):
        self . crawl ( 'http://scrapy.org/' , callback = self . index_page )

    @ config ( age = 10 * 24 * 60 * 60 )
    def index_page ( self , response ):
        for each in response . doc ( 'a[href^="http"]' ). items ():
            self . crawl ( each . attr . href , callback = self . detail_page )

    def detail_page ( self , response ):
        return {
            "url" : response . url ,
            "title" : response . doc ( 'title' ). text (),
        }

Установка

pip install pyspider
запустите команду pyspider , посетите http://localhost:5000/

ВНИМАНИЕ: WebUI по умолчанию открыт для всех, его можно использовать для выполнения любой команды, которая может нанести вред вашей системе. Пожалуйста, используйте его во внутренней сети или включите need-auth для webui.

Быстрый старт: http://docs.pyspider.org/en/latest/Quickstart/.