Génial-crawler
Une collection de superbes robots d'exploration, araignées et ressources dans différentes langues.
Contenu
- Python
- Java
- C#
- Javascript
- PHP
- C++
- C
- Rubis
- Rouiller
- R.
- Erlang
- Perl
- Aller
- Échelle
Python
- Scrapy - Un cadre rapide de grattage d'écran et d'exploration Web de haut niveau.
- django-dynamic-scraper - Création de scrapers Scrapy via l'interface d'administration de Django.
- Scrapy-Redis - Composants basés sur Redis pour Scrapy.
- scrapy-cluster - Utilise Redis et Kafka pour créer un cluster de scraping distribué à la demande.
- distribuer_crawler - Utilise scrapy, redis, mongodb, graphite pour créer un spider distribué.
- pyspider - Un système d'araignée puissant.
- CoCrawler - Un robot d'exploration Web polyvalent construit à l'aide d'outils modernes et de la concurrence.
- cola - Un framework d'exploration distribué.
- Demiurge - Micro-framework de scraping basé sur PyQuery.
- Scrapely - Une bibliothèque de capture d'écran HTML purement python.
- feedparser - Analyseur de flux universel.
- you-get - Téléchargeur stupide qui gratte le Web.
- MechanicalSoup - Une bibliothèque Python pour automatiser l'interaction avec les sites Web.
- portia - Scraping visuel pour Scrapy.
- crawley - Framework Pythonic Crawling/Scraping basé sur des opérations d'E/S non bloquantes.
- RoboBrowser - Une bibliothèque Pythonique simple pour naviguer sur le Web sans navigateur Web autonome.
- MSpider - Une araignée simple et facile utilisant le rendu gevent et js.
- brownant - Un framework léger d'extraction de données Web.
- PSpider - Un simple cadre d'araignée en Python3.
- Gain - Framework d'exploration Web basé sur asyncio pour tout le monde.
- sukhoi - Web Crawler minimaliste et puissant.
- Spidy - Le robot d'exploration Web en ligne de commande simple et facile à utiliser.
- journal - Extraction de métadonnées d'actualités, de texte intégral et d'articles en Python 3
- aspider - Un micro-framework de scraping Web asynchrone basé sur asyncio.
Java
- ACHE Crawler - Un robot d'exploration Web facile à utiliser pour la recherche spécifique à un domaine.
- Apache Nutch - Robot d'exploration Web hautement extensible et hautement évolutif pour l'environnement de production.
- anthelion - Un plugin pour Apache Nutch pour explorer les annotations sémantiques dans les pages HTML.
- Crawler4j - Robot d'exploration Web simple et léger.
- JSoup - Gratte, analyse, manipule et nettoie le HTML.
- websphinx - Processeurs spécifiques au site Web pour l'extraction d'informations HTML.
- Open Search Server - Un ensemble complet de fonctions de recherche. Construisez votre propre stratégie d’indexation. Les analyseurs extraient les données en texte intégral. Les robots peuvent tout indexer.
- Gecco - Un robot d'exploration Web léger et facile à utiliser
- WebCollector - Interfaces simples pour explorer le Web, vous pouvez configurer un robot d'exploration Web multithread en moins de 5 minutes.
- Webmagic - Un framework de robots d'exploration évolutif.
- Spiderman - Un robot d'exploration Web évolutif, extensible et multithread.
- Spiderman2 - Un framework de robot d'exploration Web distribué, prenant en charge le rendu js.
- Heritrix3 - Projet de robot d'exploration Web extensible, à l'échelle du Web et de qualité archivistique.
- SeimiCrawler - Un framework d'exploration agile et distribué.
- StormCrawler - Une collection open source de ressources pour créer des robots d'exploration Web évolutifs et à faible latence sur Apache Storm
- Spark-Crawler - Apache Nutch évolutif pour fonctionner sur Spark.
- webBee - Une araignée Web DFS.
- spider-flow - Un framework visuel d'araignée, il est si bon que vous n'avez pas besoin d'écrire de code pour explorer le site Web.
- Norconex Web Crawler - Norconex HTTP Collector est un robot d'exploration Web (ou araignée) complet qui peut manipuler et stocker les données collectées dans un référentiel de votre choix (par exemple un moteur de recherche). Peut être utilisé comme application autonome ou être intégré dans des applications Java.
C#
- ccrawler - Version C# 3.5 intégrée. il contient une simple extension du catégoriseur de contenu Web, qui peut séparer les pages Web en fonction de leur contenu.
- SimpleCrawler - Base d'araignée simple sur lecture multiple, expression régulière.
- DotnetSpider - Il s'agit d'une araignée légère et multiplateforme développée par C#.
- Abot - Robot d'exploration Web C# conçu pour la vitesse et la flexibilité.
- Hawk - Outil Advanced Crawler et ETL écrit en C#/WPF.
- SkyScraper - Un scraper / robot d'exploration Web asynchrone utilisant async / wait et Reactive Extensions.
- Infinity Crawler - Une bibliothèque de robots d'exploration Web simple mais puissante en C#.
Javascript
- scraperjs - Un grattoir Web complet et polyvalent.
- scrape-it - Un scraper Node.js pour les humains.
- simplecrawler - Robot d'exploration Web piloté par événements.
- node-crawler - Node-crawler a une API propre et simple.
- js-crawler - Robot d'exploration Web pour Node.JS, HTTP et HTTPS sont pris en charge.
- webster - Un cadre d'exploration Web fiable qui peut récupérer le contenu rendu ajax et js dans une page Web.
- x-ray - Web scraper avec prise en charge de la pagination et du robot d'exploration.
- node-osmosis - Analyseur HTML/XML et grattoir Web pour Node.js.
- web-scraper-chrome-extension - Outil d'extraction de données Web implémenté en tant qu'extension Chrome.
- supercrawler - Définissez des gestionnaires personnalisés pour analyser le contenu. Respecte le fichier robots.txt, les limites de débit et les limites de concurrence.
- headless-chrome-crawler – Chrome sans tête explore avec le support jQuery
- Squidwarc - Robot d'exploration d'archives haute fidélité, scriptable par l'utilisateur, qui utilise Chrome ou Chromium avec ou sans tête
- crawlee - Une bibliothèque de scraping Web et d'automatisation du navigateur pour Node.js qui vous aide à créer des robots d'exploration fiables. Rapide.
PHP
- Goutte - Une bibliothèque de capture d'écran et d'exploration Web pour PHP.
- laravel-goutte - Laravel 5 Façade pour Goutte.
- dom-crawler - Le composant DomCrawler facilite la navigation DOM pour les documents HTML et XML.
- QueryList - Le framework de robot d'exploration PHP progressif.
- pspider - Robot d'exploration Web parallèle écrit en PHP.
- php-spider - Un araignée Web PHP configurable et extensible.
- spatie/crawler - Un robot d'exploration puissant et facile à utiliser implémenté en PHP. Peut exécuter Javascript.
- crawlzone/crawlzone - Crawlzone est un framework d'exploration Internet asynchrone rapide pour PHP.
- PHPScraper - PHPScraper est un grattoir et un robot d'exploration conçu pour la simplicité.
C++
- open-source-search-engine - Un moteur de recherche open source distribué et un spider/crawler écrit en C/C++.
C
- httrack - Copiez les sites Web sur votre ordinateur.
Rubis
- Nokogiri - Un Rubygem fournissant des analyseurs HTML, XML, SAX et Reader avec prise en charge des sélecteurs XPath et CSS.
- upton - Un cadre avec piles incluses pour un scraping facile. Ajoutez simplement du CSS (ou faites-en plus).
- wombat - Crawler/scraper Web Ruby léger avec un DSL élégant qui extrait les données structurées des pages.
- RubyRetriever - RubyRetriever est un robot d'exploration Web, un grattoir et un récolteur de fichiers.
- Spidr - Spider un site, plusieurs domaines, certains liens ou à l'infini.
- Cobweb - Robot d'exploration Web avec des options d'exploration très flexibles, autonome ou utilisant sidekiq.
- mechanize - Interaction et exploration Web automatisées.
Rouiller
- spider - Le robot d'exploration et indexeur Web le plus rapide.
- crawler - Un turbo d'indexeur Web gRPC chargé pour les performances.
R.
- rvest - Scraping Web simple pour R.
Erlang
- ebot - Un outil de recherche Web évolutif, distribué et hautement configurable.
Perl
- web-scraper - Boîte à outils Web Scraping utilisant des sélecteurs HTML et CSS ou des expressions XPath.
Aller
- pholcus - Un robot d'exploration Web distribué, à haute concurrence et puissant.
- gocrawl - Robot d'exploration Web poli, mince et simultané.
- fetchbot - Un robot d'exploration Web simple et flexible qui suit les politiques robots.txt et les délais d'exploration.
- go_spider - Un superbe framework Go concurrent Crawler (spider).
- dht - Protocole BitTorrent DHT et& DHT Spider.
- ants-go - Un moteur d'exploration open source, distribué et reposant dans Golang.
- scrape - Une interface simple et de niveau supérieur pour le scraping Web Go.
- creeper - Le framework Crawler de nouvelle génération (Go).
- colly - Cadre de grattage rapide et élégant pour les Gophers.
- furet - Web scraping déclaratif.
- Kit Dataflow - Extrayez les données structurées des pages Web. Scraping de sites Web.
- Hakrawler - Robot d'exploration Web simple et rapide conçu pour une découverte facile et rapide des points de terminaison et des actifs au sein d'une application Web
Échelle
- crawler - Scala DSL pour l'exploration du Web.
- scrala - Framework Scala crawler(spider), inspiré de scrapy.
- ferrit - Ferrit est un service de robot d'exploration Web écrit en Scala à l'aide d'Akka, Spray et Cassandra.