Потрясающий краулер
Коллекция потрясающих веб-сканеров, пауков и ресурсов на разных языках.
Содержание
- Питон
- Ява
- С#
- JavaScript
- PHP
- С++
- С
- Руби
- Ржавчина
- Р
- Эрланг
- Перл
- Идти
- Скала
Питон
- Scrapy — быстрая высокоуровневая платформа для очистки экрана и сканирования веб-страниц.
- django-dynamic-scraper — Создание парсеров Scrapy через интерфейс администратора Django.
- Scrapy-Redis — компоненты для Scrapy на основе Redis.
- Scrapy-cluster — использует Redis и Kafka для создания распределенного парсинг-кластера по требованию.
- Distribute_crawler — использует Scrapy, Redis, mongodb,graphite для создания распределенного паука.
- pyspider — мощная паучья система.
- CoCrawler — универсальный веб-сканер, созданный с использованием современных инструментов и параллелизма.
- cola — распределенная среда сканирования.
- Demiurge — микрофреймворк парсинга на основе PyQuery.
- Scrapely — библиотека очистки экрана HTML на чистом Python.
- Feedparser — универсальный парсер фидов.
- you-get — Тупой загрузчик, парсящий Интернет.
- MechanicalSoup — библиотека Python для автоматизации взаимодействия с веб-сайтами.
- порция — Визуальный парсинг для Scrapy.
- Crowley — Pythonic Crawling/Scraping Framework, основанный на неблокирующих операциях ввода-вывода.
- RoboBrowser — простая библиотека Pythonic для просмотра веб-страниц без отдельного веб-браузера.
- MSpider — простой и удобный паук, использующий gevent и js-рендеринг.
- Brownant — легкая платформа для извлечения веб-данных.
- PSpider — простой фрейм-паук в Python3.
- Gain — платформа сканирования веб-страниц на основе asyncio, доступная каждому.
- sukhoi — Минималистичный и мощный веб-сканер.
- spidy — простой и удобный в использовании веб-сканер с командной строкой.
- газета — извлечение новостей, полнотекстовых данных и метаданных статей в Python 3.
- aspider — микроплатформа асинхронного веб-скрапинга, основанная на asyncio.
Ява
- ACHE Crawler — простой в использовании веб-сканер для поиска по конкретному домену.
- Apache Nutch — расширяемый и масштабируемый веб-сканер для производственной среды.
- anthelion — плагин для Apache Nutch для сканирования семантических аннотаций на HTML-страницах.
- Crawler4j — Простой и легкий веб-сканер.
- JSoup — очищает, анализирует, манипулирует и очищает HTML.
- websphinx — процессоры для конкретного веб-сайта для извлечения информации HTML.
- Открытый поисковый сервер — полный набор функций поиска. Создайте свою собственную стратегию индексации. Парсеры извлекают полнотекстовые данные. Сканеры могут индексировать все.
- Gecco — простой в использовании легкий веб-сканер.
- WebCollector — простые интерфейсы для сканирования Интернета. Вы можете настроить многопоточный веб-сканер менее чем за 5 минут.
- Webmagic — масштабируемая среда сканирования.
- Человек-Паук — масштабируемый, расширяемый, многопоточный веб-сканер.
- Spiderman2 — распределенная платформа веб-сканера, поддерживающая js-рендеринг.
- Heritrix3 — расширяемый веб-масштабируемый проект веб-сканера архивного качества.
- SeimiCrawler — гибкая распределенная среда сканирования.
- StormCrawler — коллекция ресурсов с открытым исходным кодом для создания масштабируемых веб-сканеров с малой задержкой на Apache Storm.
- Spark-Crawler — развивающийся Apache Nutch для работы на Spark.
- webBee — веб-паук DFS.
- Spider-flow — визуальный фреймворк для пауков, он настолько хорош, что вам не нужно писать какой-либо код для сканирования веб-сайта.
- Norconex Web Crawler — Norconex HTTP Collector — это полнофункциональный веб-сканер (или «паук»), который может манипулировать собранными данными и сохранять их в хранилище по вашему выбору (например, в поисковой системе). Может использоваться как отдельное приложение или быть встроено в приложения Java.
С#
- ccrawler — встроен в версию C# 3.5. он содержит простое расширение классификатора веб-контента, который может разделять веб-страницы в зависимости от их содержимого.
- SimpleCrawler — простой паук, основанный на многопоточности и регулярных выражениях.
- DotnetSpider — это кросс-платформенный легкий паук, разработанный на C#.
- Abot — веб-сканер C#, созданный для скорости и гибкости.
- Hawk — расширенный инструмент Crawler и ETL, написанный на C#/WPF.
- SkyScraper — асинхронный веб-скребок/веб-сканер, использующий async/await и реактивные расширения.
- Infinity Crawler — простая, но мощная библиотека веб-сканера на C#.
JavaScript
- Scraperjs — Полноценный и универсальный веб-скребок.
- Scrape-it — парсер Node.js для людей.
- simplecrawler — веб-сканер, управляемый событиями.
- Node-Crawler — Node-Crawler имеет чистый и простой API.
- js-crawler — веб-сканер для Node.JS, поддерживаются как HTTP, так и HTTPS.
- webster — надежная среда веб-сканирования, которая может очищать содержимое веб-страницы, отображаемое с помощью ajax и js.
- x-ray — веб-скребок с нумерацией страниц и поддержкой сканеров.
- node-osmosis — парсер HTML/XML и веб-парсер для Node.js.
- web-scraper-chrome-extension — инструмент извлечения веб-данных, реализованный как расширение Chrome.
- supercrawler — определение пользовательских обработчиков для анализа контента. Соблюдает robots.txt, ограничения скорости и ограничения параллелизма.
- headless-chrome-crawler — Chrome без головы сканирует с поддержкой jQuery.
- Squidwarc — высокоточный архивный сканер с возможностью написания пользователем сценариев, использующий Chrome или Chromium с головкой или без нее.
- Crawlee — библиотека веб-скрапинга и автоматизации браузера для Node.js, которая помогает создавать надежные сканеры. Быстрый.
PHP
- Goutte — библиотека очистки экрана и сканирования веб-страниц для PHP.
- laravel-goutte — Фасад Laravel 5 для Goutte.
- dom-crawler — компонент DomCrawler упрощает навигацию по DOM для документов HTML и XML.
- QueryList — прогрессивная структура сканирования PHP.
- pspider — параллельный веб-сканер, написанный на PHP.
- php-spider — настраиваемый и расширяемый веб-паук PHP.
- spatie/crawler — простой в использовании и мощный сканер, реализованный на PHP. Может выполнять Javascript.
- Crawzone/CrawlZone — CrawlZone — это быстрая асинхронная среда сканирования Интернета для PHP.
- PHPScraper — PHPScraper — это парсер и сканер, созданный для простоты.
С++
- поисковая машина с открытым исходным кодом — распределенная поисковая система с открытым исходным кодом и программа-паук/сканер, написанная на C/C++.
С
- httrack — копирование веб-сайтов на свой компьютер.
Руби
- Nokogiri — Rubygem, предоставляющий анализаторы HTML, XML, SAX и Reader с поддержкой селекторов XPath и CSS.
- upton — фреймворк с батарейками для удобного парсинга веб-страниц. Просто добавьте CSS (или сделайте больше).
- wombat — легкий веб-сканер/скребок Ruby с элегантным DSL, который извлекает структурированные данные со страниц.
- RubyRetriever — RubyRetriever — это веб-сканер, парсер и сборщик файлов.
- Spidr - Спайдер сайта, нескольких доменов, определенных ссылок или бесконечно.
- Cobweb — веб-сканер с очень гибкими возможностями сканирования, как автономно, так и с использованием Sidekiq.
- механизировать — автоматизированное взаимодействие и сканирование веб-страниц.
Ржавчина
- Spider — Самый быстрый веб-сканер и индексатор.
- сканер — веб-индексатор gRPC, повышенная производительность.
Р
- rvest — простой парсинг веб-страниц для R.
Эрланг
- ebot — масштабируемый, распределенный и легко настраиваемый веб-коулер.
Перл
- web-scraper — набор инструментов для парсинга веб-страниц с использованием селекторов HTML и CSS или выражений XPath.
Идти
- pholcus — распределенный, мощный веб-сканер с высоким уровнем параллелизма.
- gocrawl — Вежливый, тонкий и одновременно работающий веб-сканер.
- fetchbot — простой и гибкий веб-сканер, который следует политикам файла robots.txt и исключает задержки при сканировании.
- go_spider — потрясающий фреймворк для параллельного обхода (паука) Go.
- dht — протокол BitTorrent DHT и DHT Spider.
- ants-go — распределенный, спокойный краулерный движок с открытым исходным кодом на golang.
- Scrape — простой интерфейс более высокого уровня для парсинга веб-страниц Go.
- Creeper — фреймворк следующего поколения (Go).
- Colly — быстрая и элегантная платформа парсинга для Gophers.
- Ferret — Декларативный парсинг веб-страниц.
- Комплект Dataflow — извлечение структурированных данных с веб-страниц. Парсинг веб-сайтов.
- Hakrawler — простой и быстрый веб-сканер, предназначенный для простого и быстрого обнаружения конечных точек и ресурсов в веб-приложении.
Скала
- сканер — Scala DSL для сканирования веб-страниц.
- Scrala — фреймворк Scala Crawler(Spider), вдохновленный Scrapy.
- Ferrit — Ferrit — это служба веб-сканирования, написанная на Scala с использованием Akka, Spray и Cassandra.