Toller Crawler
Eine Sammlung großartiger Webcrawler, Spider und Ressourcen in verschiedenen Sprachen.
Inhalt
- Python
- Java
- C#
- JavaScript
- PHP
- C++
- C
- Rubin
- Rost
- R
- Erlang
- Perl
- Gehen
- Scala
Python
- Scrapy – Ein schnelles High-Level-Screen-Scraping- und Web-Crawling-Framework.
- django-dynamic-scraper – Erstellen von Scrapy-Scrapern über die Django-Administratoroberfläche.
- Scrapy-Redis – Redis-basierte Komponenten für Scrapy.
- scrapy-cluster – Verwendet Redis und Kafka, um einen verteilten On-Demand-Scraping-Cluster zu erstellen.
- distribution_crawler – Verwendet Scrapy, Redis, Mongodb, Graphite, um einen verteilten Spider zu erstellen.
- pyspider – Ein leistungsstarkes Spinnensystem.
- CoCrawler – Ein vielseitiger Webcrawler, der mit modernen Tools und Parallelität erstellt wurde.
- cola – Ein verteiltes Crawling-Framework.
- Demiurge – PyQuery-basiertes Scraping-Mikro-Framework.
- Scrapely – Eine reine Python-HTML-Screen-Scraping-Bibliothek.
- Feedparser – Universeller Feed-Parser.
- you-get – Dummer Downloader, der das Web durchsucht.
- MechanicalSoup – Eine Python-Bibliothek zur Automatisierung der Interaktion mit Websites.
- portia – Visuelles Scraping für Scrapy.
- crawley – Pythonic Crawling/Scraping Framework basierend auf nicht blockierenden I/O-Vorgängen.
- RoboBrowser – Eine einfache Python-Bibliothek zum Surfen im Internet ohne einen eigenständigen Webbrowser.
- MSpider – Ein einfacher Spider mit Gevent und JS Render.
- brownant – Ein leichtes Web-Datenextraktions-Framework.
- PSpider – Ein einfacher Spider-Frame in Python3.
- Gain – Web-Crawling-Framework basierend auf Asyncio für alle.
- sukhoi – Minimalistischer und leistungsstarker Webcrawler.
- spidy – Der einfache, benutzerfreundliche Befehlszeilen-Webcrawler.
- Zeitung – Nachrichten-, Volltext- und Artikelmetadatenextraktion in Python 3
- aspider – Ein asynchrones Web-Scraping-Mikroframework basierend auf Asyncio.
Java
- ACHE Crawler – Ein benutzerfreundlicher Webcrawler für die domänenspezifische Suche.
- Apache Nutch – Hoch erweiterbarer, hoch skalierbarer Webcrawler für Produktionsumgebungen.
- anthelion – Ein Plugin für Apache Nutch zum Crawlen semantischer Anmerkungen innerhalb von HTML-Seiten.
- Crawler4j – Einfacher und leichter Webcrawler.
- JSoup – Scrapt, analysiert, manipuliert und bereinigt HTML.
- websphinx – Website-spezifische Prozessoren für die Extraktion von HTML-Informationen.
- Open Search Server – Ein vollständiger Satz an Suchfunktionen. Erstellen Sie Ihre eigene Indexierungsstrategie. Parser extrahieren Volltextdaten. Die Crawler können alles indizieren.
- Gecco – Ein benutzerfreundlicher, leichter Webcrawler
- WebCollector – Einfache Schnittstellen zum Crawlen des Webs. Sie können einen Multithread-Webcrawler in weniger als 5 Minuten einrichten.
- Webmagic – Ein skalierbares Crawler-Framework.
- Spiderman – Ein skalierbarer, erweiterbarer Multithread-Webcrawler.
- Spiderman2 – Ein verteiltes Webcrawler-Framework, das js render unterstützt.
- Heritrix3 – Erweiterbares, webbasiertes Webcrawler-Projekt in Archivqualität.
- SeimiCrawler – Ein agiles, verteiltes Crawler-Framework.
- StormCrawler – Eine Open-Source-Ressourcensammlung zum Erstellen skalierbarer Webcrawler mit geringer Latenz auf Apache Storm
- Spark-Crawler – Weiterentwicklung von Apache Nutch zur Ausführung auf Spark.
- webBee – Ein DFS-Webspider.
- Spider-Flow – Ein visuelles Spider-Framework. Es ist so gut, dass Sie keinen Code schreiben müssen, um die Website zu crawlen.
- Norconex Web Crawler – Norconex HTTP Collector ist ein Webcrawler (oder Spider) mit vollem Funktionsumfang, der gesammelte Daten manipulieren und in einem Repository Ihrer Wahl (z. B. einer Suchmaschine) speichern kann. Kann als eigenständige Anwendung verwendet oder in Java-Anwendungen eingebettet werden.
C#
- ccrawler – Gebaut in C# 3.5-Version. Es enthält eine einfache Erweiterung des Webinhaltskategorisierers, der die Webseiten je nach Inhalt aufteilen kann.
- SimpleCrawler – Einfache Spinnenbasis auf Mutithreading, regulärem Ausdruck.
- DotnetSpider – Dies ist ein plattformübergreifender, leichter Spider, der von C# entwickelt wurde.
- Abot – C#-Webcrawler, der auf Geschwindigkeit und Flexibilität ausgelegt ist.
- Hawk – Erweitertes Crawler- und ETL-Tool, geschrieben in C#/WPF.
- SkyScraper – Ein asynchroner Web Scraper/Webcrawler mit async/await und reaktiven Erweiterungen.
- Infinity Crawler – Eine einfache, aber leistungsstarke Webcrawler-Bibliothek in C#.
JavaScript
- scraperjs – Ein vollständiger und vielseitiger Web-Scraper.
- scrape-it – Ein Node.js-Scraper für Menschen.
- simplecrawler – Ereignisgesteuerter Webcrawler.
- Node-Crawler – Node-Crawler verfügt über eine saubere, einfache API.
- js-crawler – Webcrawler für Node.JS, sowohl HTTP als auch HTTPS werden unterstützt.
- Webster – Ein zuverlässiges Web-Crawling-Framework, das Ajax- und JS-gerenderte Inhalte auf einer Webseite durchsuchen kann.
- x-ray – Web-Scraper mit Paginierung und Crawler-Unterstützung.
- node-osmosis – HTML/XML-Parser und Web-Scraper für Node.js.
- web-scraper-chrome-extension – Web-Datenextraktionstool, implementiert als Chrome-Erweiterung.
- supercrawler – Definieren Sie benutzerdefinierte Handler zum Parsen von Inhalten. Befolgt robots.txt, Ratenlimits und Parallelitätslimits.
- headless-chrome-crawler – Headless Chrome crawlt mit jQuery-Unterstützung
- Squidwarc – Hochpräziser, vom Benutzer skriptfähiger Archiv-Crawler, der Chrome oder Chromium mit oder ohne Kopf verwendet
- crawlee – Eine Web-Scraping- und Browser-Automatisierungsbibliothek für Node.js, die Ihnen beim Erstellen zuverlässiger Crawler hilft. Schnell.
PHP
- Goutte – Eine Screen-Scraping- und Web-Crawling-Bibliothek für PHP.
- laravel-goutte – Laravel 5 Fassade für Goutte.
- dom-crawler – Die DomCrawler-Komponente erleichtert die DOM-Navigation für HTML- und XML-Dokumente.
- QueryList – Das progressive PHP-Crawler-Framework.
- pspider – Paralleler Webcrawler, geschrieben in PHP.
- php-spider – Ein konfigurierbarer und erweiterbarer PHP-Webspider.
- spatie/crawler – Ein benutzerfreundlicher, leistungsstarker Crawler, der in PHP implementiert ist. Kann Javascript ausführen.
- crawlzone/crawlzone – Crawlzone ist ein schnelles asynchrones Internet-Crawling-Framework für PHP.
- PHPScraper – PHPScraper ist ein Scraper und Crawler, der auf Einfachheit ausgelegt ist.
C++
- open-source-search-engine – Eine verteilte Open-Source-Suchmaschine und Spider/Crawler, geschrieben in C/C++.
C
- httrack – Websites auf Ihren Computer kopieren.
Rubin
- Nokogiri – Ein Rubygem, das HTML-, XML-, SAX- und Reader-Parser mit XPath- und CSS-Selektorunterstützung bereitstellt.
- upton – Ein batteriebetriebenes Framework für einfaches Web-Scraping. Fügen Sie einfach CSS hinzu (oder machen Sie mehr).
- wombat – Leichter Ruby-Webcrawler/Scraper mit elegantem DSL, der strukturierte Daten aus Seiten extrahiert.
- RubyRetriever – RubyRetriever ist ein Web Crawler, Scraper und File Harvester.
- Spidr – Spider eine Site, mehrere Domains, bestimmte Links oder unendlich.
- Cobweb – Webcrawler mit sehr flexiblen Crawling-Optionen, eigenständig oder mit Sidekiq.
- mechanisieren – Automatisierte Web-Interaktion und Crawling.
Rost
- Spider – Der schnellste Webcrawler und Indexer.
- crawler – Ein gRPC-Web-Indexer-Turbo mit viel Leistung.
R
- rvest – Einfaches Web-Scraping für R.
Erlang
- ebot – Ein skalierbarer, verteilter und hochgradig konfigurierbarer Web-Cawler.
Perl
- web-scraper – Web-Scraping-Toolkit mit HTML- und CSS-Selektoren oder XPath-Ausdrücken.
Gehen
- pholcus – Ein verteilter, leistungsstarker Webcrawler mit hoher Parallelität.
- gocrawl – Höflicher, schlanker und gleichzeitiger Webcrawler.
- fetchbot – Ein einfacher und flexibler Webcrawler, der die robots.txt-Richtlinien und Crawling-Verzögerungen befolgt.
- go_spider – Ein fantastisches Go-Concurrent-Crawler(Spider)-Framework.
- dht – BitTorrent DHT-Protokoll && DHT Spider.
- ants-go – Eine Open-Source-, verteilte, erholsame Crawler-Engine in Golang.
- scrape – Eine einfache, übergeordnete Schnittstelle für Go-Web-Scraping.
- creeper – Das Crawler-Framework der nächsten Generation (Go).
- colly – Schnelles und elegantes Scraping-Framework für Gophers.
- Frettchen – Deklaratives Web-Scraping.
- Dataflow-Kit – Extrahieren Sie strukturierte Daten aus Webseiten. Scraping von Websites.
- Hakrawler – Einfacher, schneller Webcrawler, der für die einfache und schnelle Erkennung von Endpunkten und Assets innerhalb einer Webanwendung entwickelt wurde
Scala
- crawler – Scala DSL für Web-Crawling.
- scrala – Scala-Crawler(Spider)-Framework, inspiriert von Scrapy.
- ferrit – Ferrit ist ein in Scala geschriebener Webcrawler-Dienst mit Akka, Spray und Cassandra.