Загрузка awesome crawler - Загрузка исходного кода awesome crawler

awesome crawler

Другой исходный код

1.0.0

Скачать

Потрясающий краулер

Коллекция потрясающих веб-сканеров, пауков и ресурсов на разных языках.

Содержание

Питон
Ява
С#
JavaScript
PHP
С++
С
Руби
Ржавчина
Р
Эрланг
Перл
Идти
Скала

Питон

Scrapy — быстрая высокоуровневая платформа для очистки экрана и сканирования веб-страниц.
- django-dynamic-scraper — Создание парсеров Scrapy через интерфейс администратора Django.
- Scrapy-Redis — компоненты для Scrapy на основе Redis.
- Scrapy-cluster — использует Redis и Kafka для создания распределенного парсинг-кластера по требованию.
- Distribute_crawler — использует Scrapy, Redis, mongodb,graphite для создания распределенного паука.
pyspider — мощная паучья система.
CoCrawler — универсальный веб-сканер, созданный с использованием современных инструментов и параллелизма.
cola — распределенная среда сканирования.
Demiurge — микрофреймворк парсинга на основе PyQuery.
Scrapely — библиотека очистки экрана HTML на чистом Python.
Feedparser — универсальный парсер фидов.
you-get — Тупой загрузчик, парсящий Интернет.
MechanicalSoup — библиотека Python для автоматизации взаимодействия с веб-сайтами.
порция — Визуальный парсинг для Scrapy.
Crowley — Pythonic Crawling/Scraping Framework, основанный на неблокирующих операциях ввода-вывода.
RoboBrowser — простая библиотека Pythonic для просмотра веб-страниц без отдельного веб-браузера.
MSpider — простой и удобный паук, использующий gevent и js-рендеринг.
Brownant — легкая платформа для извлечения веб-данных.
PSpider — простой фрейм-паук в Python3.
Gain — платформа сканирования веб-страниц на основе asyncio, доступная каждому.
sukhoi — Минималистичный и мощный веб-сканер.
spidy — простой и удобный в использовании веб-сканер с командной строкой.
газета — извлечение новостей, полнотекстовых данных и метаданных статей в Python 3.
aspider — микроплатформа асинхронного веб-скрапинга, основанная на asyncio.

Ява

ACHE Crawler — простой в использовании веб-сканер для поиска по конкретному домену.
Apache Nutch — расширяемый и масштабируемый веб-сканер для производственной среды.
- anthelion — плагин для Apache Nutch для сканирования семантических аннотаций на HTML-страницах.
Crawler4j — Простой и легкий веб-сканер.
JSoup — очищает, анализирует, манипулирует и очищает HTML.
websphinx — процессоры для конкретного веб-сайта для извлечения информации HTML.
Открытый поисковый сервер — полный набор функций поиска. Создайте свою собственную стратегию индексации. Парсеры извлекают полнотекстовые данные. Сканеры могут индексировать все.
Gecco — простой в использовании легкий веб-сканер.
WebCollector — простые интерфейсы для сканирования Интернета. Вы можете настроить многопоточный веб-сканер менее чем за 5 минут.
Webmagic — масштабируемая среда сканирования.
Человек-Паук — масштабируемый, расширяемый, многопоточный веб-сканер.
- Spiderman2 — распределенная платформа веб-сканера, поддерживающая js-рендеринг.
Heritrix3 — расширяемый веб-масштабируемый проект веб-сканера архивного качества.
SeimiCrawler — гибкая распределенная среда сканирования.
StormCrawler — коллекция ресурсов с открытым исходным кодом для создания масштабируемых веб-сканеров с малой задержкой на Apache Storm.
Spark-Crawler — развивающийся Apache Nutch для работы на Spark.
webBee — веб-паук DFS.
Spider-flow — визуальный фреймворк для пауков, он настолько хорош, что вам не нужно писать какой-либо код для сканирования веб-сайта.
Norconex Web Crawler — Norconex HTTP Collector — это полнофункциональный веб-сканер (или «паук»), который может манипулировать собранными данными и сохранять их в хранилище по вашему выбору (например, в поисковой системе). Может использоваться как отдельное приложение или быть встроено в приложения Java.

С#

ccrawler — встроен в версию C# 3.5. он содержит простое расширение классификатора веб-контента, который может разделять веб-страницы в зависимости от их содержимого.
SimpleCrawler — простой паук, основанный на многопоточности и регулярных выражениях.
DotnetSpider — это кросс-платформенный легкий паук, разработанный на C#.
Abot — веб-сканер C#, созданный для скорости и гибкости.
Hawk — расширенный инструмент Crawler и ETL, написанный на C#/WPF.
SkyScraper — асинхронный веб-скребок/веб-сканер, использующий async/await и реактивные расширения.
Infinity Crawler — простая, но мощная библиотека веб-сканера на C#.

JavaScript

Scraperjs — Полноценный и универсальный веб-скребок.
Scrape-it — парсер Node.js для людей.
simplecrawler — веб-сканер, управляемый событиями.
Node-Crawler — Node-Crawler имеет чистый и простой API.
js-crawler — веб-сканер для Node.JS, поддерживаются как HTTP, так и HTTPS.
webster — надежная среда веб-сканирования, которая может очищать содержимое веб-страницы, отображаемое с помощью ajax и js.
x-ray — веб-скребок с нумерацией страниц и поддержкой сканеров.
node-osmosis — парсер HTML/XML и веб-парсер для Node.js.
web-scraper-chrome-extension — инструмент извлечения веб-данных, реализованный как расширение Chrome.
supercrawler — определение пользовательских обработчиков для анализа контента. Соблюдает robots.txt, ограничения скорости и ограничения параллелизма.
headless-chrome-crawler — Chrome без головы сканирует с поддержкой jQuery.
Squidwarc — высокоточный архивный сканер с возможностью написания пользователем сценариев, использующий Chrome или Chromium с головкой или без нее.
Crawlee — библиотека веб-скрапинга и автоматизации браузера для Node.js, которая помогает создавать надежные сканеры. Быстрый.

PHP

Goutte — библиотека очистки экрана и сканирования веб-страниц для PHP.
- laravel-goutte — Фасад Laravel 5 для Goutte.
dom-crawler — компонент DomCrawler упрощает навигацию по DOM для документов HTML и XML.
QueryList — прогрессивная структура сканирования PHP.
pspider — параллельный веб-сканер, написанный на PHP.
php-spider — настраиваемый и расширяемый веб-паук PHP.
spatie/crawler — простой в использовании и мощный сканер, реализованный на PHP. Может выполнять Javascript.
Crawzone/CrawlZone — CrawlZone — это быстрая асинхронная среда сканирования Интернета для PHP.
PHPScraper — PHPScraper — это парсер и сканер, созданный для простоты.

С++

поисковая машина с открытым исходным кодом — распределенная поисковая система с открытым исходным кодом и программа-паук/сканер, написанная на C/C++.

С

httrack — копирование веб-сайтов на свой компьютер.

Руби

Nokogiri — Rubygem, предоставляющий анализаторы HTML, XML, SAX и Reader с поддержкой селекторов XPath и CSS.
upton — фреймворк с батарейками для удобного парсинга веб-страниц. Просто добавьте CSS (или сделайте больше).
wombat — легкий веб-сканер/скребок Ruby с элегантным DSL, который извлекает структурированные данные со страниц.
RubyRetriever — RubyRetriever — это веб-сканер, парсер и сборщик файлов.
Spidr - Спайдер сайта, нескольких доменов, определенных ссылок или бесконечно.
Cobweb — веб-сканер с очень гибкими возможностями сканирования, как автономно, так и с использованием Sidekiq.
механизировать — автоматизированное взаимодействие и сканирование веб-страниц.

Ржавчина

Spider — Самый быстрый веб-сканер и индексатор.
сканер — веб-индексатор gRPC, повышенная производительность.

Р

rvest — простой парсинг веб-страниц для R.

Эрланг

ebot — масштабируемый, распределенный и легко настраиваемый веб-коулер.

Перл

web-scraper — набор инструментов для парсинга веб-страниц с использованием селекторов HTML и CSS или выражений XPath.

Идти

pholcus — распределенный, мощный веб-сканер с высоким уровнем параллелизма.
gocrawl — Вежливый, тонкий и одновременно работающий веб-сканер.
fetchbot — простой и гибкий веб-сканер, который следует политикам файла robots.txt и исключает задержки при сканировании.
go_spider — потрясающий фреймворк для параллельного обхода (паука) Go.
dht — протокол BitTorrent DHT и DHT Spider.
ants-go — распределенный, спокойный краулерный движок с открытым исходным кодом на golang.
Scrape — простой интерфейс более высокого уровня для парсинга веб-страниц Go.
Creeper — фреймворк следующего поколения (Go).
Colly — быстрая и элегантная платформа парсинга для Gophers.
Ferret — Декларативный парсинг веб-страниц.
Комплект Dataflow — извлечение структурированных данных с веб-страниц. Парсинг веб-сайтов.
Hakrawler — простой и быстрый веб-сканер, предназначенный для простого и быстрого обнаружения конечных точек и ресурсов в веб-приложении.

Скала

сканер — Scala DSL для сканирования веб-страниц.
Scrala — фреймворк Scala Crawler(Spider), вдохновленный Scrapy.
Ferrit — Ferrit — это служба веб-сканирования, написанная на Scala с использованием Akka, Spray и Cassandra.

Расширять

Дополнительная информация