awesome crawler Télécharger - awesome crawler Téléchargement du code source

Français

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

Page d'accueil>Lié à la programmation>Autre code source

awesome crawler

Autre code source

1.0.0

Télécharger

Génial-crawler

Une collection de superbes robots d'exploration, araignées et ressources dans différentes langues.

Contenu

Python
Java
C#
Javascript
PHP
C++
C
Rubis
Rouiller
R.
Erlang
Perl
Aller
Échelle

Python

Scrapy - Un cadre rapide de grattage d'écran et d'exploration Web de haut niveau.
- django-dynamic-scraper - Création de scrapers Scrapy via l'interface d'administration de Django.
- Scrapy-Redis - Composants basés sur Redis pour Scrapy.
- scrapy-cluster - Utilise Redis et Kafka pour créer un cluster de scraping distribué à la demande.
- distribuer_crawler - Utilise scrapy, redis, mongodb, graphite pour créer un spider distribué.
pyspider - Un système d'araignée puissant.
CoCrawler - Un robot d'exploration Web polyvalent construit à l'aide d'outils modernes et de la concurrence.
cola - Un framework d'exploration distribué.
Demiurge - Micro-framework de scraping basé sur PyQuery.
Scrapely - Une bibliothèque de capture d'écran HTML purement python.
feedparser - Analyseur de flux universel.
you-get - Téléchargeur stupide qui gratte le Web.
MechanicalSoup - Une bibliothèque Python pour automatiser l'interaction avec les sites Web.
portia - Scraping visuel pour Scrapy.
crawley - Framework Pythonic Crawling/Scraping basé sur des opérations d'E/S non bloquantes.
RoboBrowser - Une bibliothèque Pythonique simple pour naviguer sur le Web sans navigateur Web autonome.
MSpider - Une araignée simple et facile utilisant le rendu gevent et js.
brownant - Un framework léger d'extraction de données Web.
PSpider - Un simple cadre d'araignée en Python3.
Gain - Framework d'exploration Web basé sur asyncio pour tout le monde.
sukhoi - Web Crawler minimaliste et puissant.
Spidy - Le robot d'exploration Web en ligne de commande simple et facile à utiliser.
journal - Extraction de métadonnées d'actualités, de texte intégral et d'articles en Python 3
aspider - Un micro-framework de scraping Web asynchrone basé sur asyncio.

Java

ACHE Crawler - Un robot d'exploration Web facile à utiliser pour la recherche spécifique à un domaine.
Apache Nutch - Robot d'exploration Web hautement extensible et hautement évolutif pour l'environnement de production.
- anthelion - Un plugin pour Apache Nutch pour explorer les annotations sémantiques dans les pages HTML.
Crawler4j - Robot d'exploration Web simple et léger.
JSoup - Gratte, analyse, manipule et nettoie le HTML.
websphinx - Processeurs spécifiques au site Web pour l'extraction d'informations HTML.
Open Search Server - Un ensemble complet de fonctions de recherche. Construisez votre propre stratégie d’indexation. Les analyseurs extraient les données en texte intégral. Les robots peuvent tout indexer.
Gecco - Un robot d'exploration Web léger et facile à utiliser
WebCollector - Interfaces simples pour explorer le Web, vous pouvez configurer un robot d'exploration Web multithread en moins de 5 minutes.
Webmagic - Un framework de robots d'exploration évolutif.
Spiderman - Un robot d'exploration Web évolutif, extensible et multithread.
- Spiderman2 - Un framework de robot d'exploration Web distribué, prenant en charge le rendu js.
Heritrix3 - Projet de robot d'exploration Web extensible, à l'échelle du Web et de qualité archivistique.
SeimiCrawler - Un framework d'exploration agile et distribué.
StormCrawler - Une collection open source de ressources pour créer des robots d'exploration Web évolutifs et à faible latence sur Apache Storm
Spark-Crawler - Apache Nutch évolutif pour fonctionner sur Spark.
webBee - Une araignée Web DFS.
spider-flow - Un framework visuel d'araignée, il est si bon que vous n'avez pas besoin d'écrire de code pour explorer le site Web.
Norconex Web Crawler - Norconex HTTP Collector est un robot d'exploration Web (ou araignée) complet qui peut manipuler et stocker les données collectées dans un référentiel de votre choix (par exemple un moteur de recherche). Peut être utilisé comme application autonome ou être intégré dans des applications Java.

C#

ccrawler - Version C# 3.5 intégrée. il contient une simple extension du catégoriseur de contenu Web, qui peut séparer les pages Web en fonction de leur contenu.
SimpleCrawler - Base d'araignée simple sur lecture multiple, expression régulière.
DotnetSpider - Il s'agit d'une araignée légère et multiplateforme développée par C#.
Abot - Robot d'exploration Web C# conçu pour la vitesse et la flexibilité.
Hawk - Outil Advanced Crawler et ETL écrit en C#/WPF.
SkyScraper - Un scraper / robot d'exploration Web asynchrone utilisant async / wait et Reactive Extensions.
Infinity Crawler - Une bibliothèque de robots d'exploration Web simple mais puissante en C#.

Javascript

scraperjs - Un grattoir Web complet et polyvalent.
scrape-it - Un scraper Node.js pour les humains.
simplecrawler - Robot d'exploration Web piloté par événements.
node-crawler - Node-crawler a une API propre et simple.
js-crawler - Robot d'exploration Web pour Node.JS, HTTP et HTTPS sont pris en charge.
webster - Un cadre d'exploration Web fiable qui peut récupérer le contenu rendu ajax et js dans une page Web.
x-ray - Web scraper avec prise en charge de la pagination et du robot d'exploration.
node-osmosis - Analyseur HTML/XML et grattoir Web pour Node.js.
web-scraper-chrome-extension - Outil d'extraction de données Web implémenté en tant qu'extension Chrome.
supercrawler - Définissez des gestionnaires personnalisés pour analyser le contenu. Respecte le fichier robots.txt, les limites de débit et les limites de concurrence.
headless-chrome-crawler – Chrome sans tête explore avec le support jQuery
Squidwarc - Robot d'exploration d'archives haute fidélité, scriptable par l'utilisateur, qui utilise Chrome ou Chromium avec ou sans tête
crawlee - Une bibliothèque de scraping Web et d'automatisation du navigateur pour Node.js qui vous aide à créer des robots d'exploration fiables. Rapide.

PHP

Goutte - Une bibliothèque de capture d'écran et d'exploration Web pour PHP.
- laravel-goutte - Laravel 5 Façade pour Goutte.
dom-crawler - Le composant DomCrawler facilite la navigation DOM pour les documents HTML et XML.
QueryList - Le framework de robot d'exploration PHP progressif.
pspider - Robot d'exploration Web parallèle écrit en PHP.
php-spider - Un araignée Web PHP configurable et extensible.
spatie/crawler - Un robot d'exploration puissant et facile à utiliser implémenté en PHP. Peut exécuter Javascript.
crawlzone/crawlzone - Crawlzone est un framework d'exploration Internet asynchrone rapide pour PHP.
PHPScraper - PHPScraper est un grattoir et un robot d'exploration conçu pour la simplicité.

C++

open-source-search-engine - Un moteur de recherche open source distribué et un spider/crawler écrit en C/C++.

C

httrack - Copiez les sites Web sur votre ordinateur.

Rubis

Nokogiri - Un Rubygem fournissant des analyseurs HTML, XML, SAX et Reader avec prise en charge des sélecteurs XPath et CSS.
upton - Un cadre avec piles incluses pour un scraping facile. Ajoutez simplement du CSS (ou faites-en plus).
wombat - Crawler/scraper Web Ruby léger avec un DSL élégant qui extrait les données structurées des pages.
RubyRetriever - RubyRetriever est un robot d'exploration Web, un grattoir et un récolteur de fichiers.
Spidr - Spider un site, plusieurs domaines, certains liens ou à l'infini.
Cobweb - Robot d'exploration Web avec des options d'exploration très flexibles, autonome ou utilisant sidekiq.
mechanize - Interaction et exploration Web automatisées.

Rouiller

spider - Le robot d'exploration et indexeur Web le plus rapide.
crawler - Un turbo d'indexeur Web gRPC chargé pour les performances.

R.

rvest - Scraping Web simple pour R.

Erlang

ebot - Un outil de recherche Web évolutif, distribué et hautement configurable.

Perl

web-scraper - Boîte à outils Web Scraping utilisant des sélecteurs HTML et CSS ou des expressions XPath.

Aller

pholcus - Un robot d'exploration Web distribué, à haute concurrence et puissant.
gocrawl - Robot d'exploration Web poli, mince et simultané.
fetchbot - Un robot d'exploration Web simple et flexible qui suit les politiques robots.txt et les délais d'exploration.
go_spider - Un superbe framework Go concurrent Crawler (spider).
dht - Protocole BitTorrent DHT et& DHT Spider.
ants-go - Un moteur d'exploration open source, distribué et reposant dans Golang.
scrape - Une interface simple et de niveau supérieur pour le scraping Web Go.
creeper - Le framework Crawler de nouvelle génération (Go).
colly - Cadre de grattage rapide et élégant pour les Gophers.
furet - Web scraping déclaratif.
Kit Dataflow - Extrayez les données structurées des pages Web. Scraping de sites Web.
Hakrawler - Robot d'exploration Web simple et rapide conçu pour une découverte facile et rapide des points de terminaison et des actifs au sein d'une application Web

Échelle

crawler - Scala DSL pour l'exploration du Web.
scrala - Framework Scala crawler(spider), inspiré de scrapy.
ferrit - Ferrit est un service de robot d'exploration Web écrit en Scala à l'aide d'Akka, Spray et Cassandra.

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-01-03
taille 6.89KB
Provenant de Github

Applications connexes

awesome citygml

2024-11-13
nhentai comic crawler

2024-11-06
Web crawler novels

2024-11-05
awesome swift

2024-11-03
Super jeu du diable

2023-04-16
Pont sur chenilles

2022-08-16

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
waymo open dataset

Autre code source

December 2023 Update
SmartTube

Autre code source

24.71 Stable
Sunamu

Autre code source

Release 2.2.0
waymo open dataset

Autre code source

December 2023 Update
wp functions

Autres catégories

1.0.0
termwind

Autres catégories

v2.3.0

Actualités connexes Tout