rastreador impresionante
Una colección de increíbles rastreadores web, arañas y recursos en diferentes idiomas.
Contenido
- Pitón
- Java
- DO#
- javascript
- PHP
- C++
- do
- Rubí
- Óxido
- R
- erlang
- perla
- Ir
- escala
Pitón
- Scrapy: un marco rápido de rastreo web y raspado de pantalla de alto nivel.
- django-dynamic-scraper: creación de raspadores Scrapy a través de la interfaz de administración de Django.
- Scrapy-Redis: componentes basados en Redis para Scrapy.
- scrapy-cluster: utiliza Redis y Kafka para crear un clúster de raspado distribuido bajo demanda.
- distribuir_crawler: utiliza scrapy,redis, mongodb y grafito para crear una araña distribuida.
- pyspider: un poderoso sistema de arañas.
- CoCrawler: un rastreador web versátil creado con herramientas modernas y simultaneidad.
- cola: un marco de rastreo distribuido.
- Demiurge: micromarco de raspado basado en PyQuery.
- Scrapely: una biblioteca de raspado de pantalla HTML puramente Python.
- feedparser: analizador de feeds universal.
- you-get: descargador tonto que rastrea la web.
- MechanicalSoup: una biblioteca de Python para automatizar la interacción con sitios web.
- portia: raspado visual para Scrapy.
- Crawley: marco de rastreo/raspado Pythonic basado en operaciones de E/S sin bloqueo.
- RoboBrowser: una biblioteca Pythonic sencilla para navegar por la web sin un navegador web independiente.
- MSpider: una araña sencilla y fácil que utiliza gevent y js render.
- brownant: un marco de extracción de datos web ligero.
- PSpider: un marco de araña simple en Python3.
- Gain: marco de rastreo web basado en asyncio para todos.
- sukhoi: rastreador web minimalista y potente.
- Spidy: el rastreador web de línea de comandos simple y fácil de usar.
- periódico - Extracción de metadatos de noticias, texto completo y artículos en Python 3
- aspider: un micromarco de raspado web asíncrono basado en asyncio.
Java
- ACHE Crawler: un rastreador web fácil de usar para búsquedas de dominios específicos.
- Apache Nutch: rastreador web altamente extensible y escalable para entornos de producción.
- anthelion: un complemento para Apache Nutch para rastrear anotaciones semánticas dentro de páginas HTML.
- Crawler4j: rastreador web simple y liviano.
- JSoup: raspa, analiza, manipula y limpia HTML.
- websphinx: procesadores específicos de sitios web para extracción de información HTML.
- Open Search Server: un conjunto completo de funciones de búsqueda. Construya su propia estrategia de indexación. Los analizadores extraen datos de texto completo. Los rastreadores pueden indexar todo.
- Gecco: un rastreador web ligero y fácil de usar
- WebCollector: interfaces simples para rastrear la Web; puede configurar un rastreador web de subprocesos múltiples en menos de 5 minutos.
- Webmagic: un marco de rastreo escalable.
- Spiderman: un rastreador web escalable, extensible y multiproceso.
- Spiderman2: un marco de rastreo web distribuido que admite procesamiento js.
- Heritrix3: proyecto de rastreador web extensible, a escala web y con calidad de archivo.
- SeimiCrawler: un marco de rastreo ágil y distribuido.
- StormCrawler: una colección de recursos de código abierto para crear rastreadores web escalables y de baja latencia en Apache Storm
- Spark-Crawler: evolución de Apache Nutch para ejecutarse en Spark.
- webBee: una araña web DFS.
- spider-flow: un marco de araña visual, es tan bueno que no es necesario escribir ningún código para rastrear el sitio web.
- Norconex Web Crawler: Norconex HTTP Collector es un rastreador web (o araña) con todas las funciones que puede manipular y almacenar datos recopilados en un repositorio de su elección (por ejemplo, un motor de búsqueda). Puede usarse como una aplicación independiente o integrarse en aplicaciones Java.
DO#
- ccrawler: construido en la versión C# 3.5. Contiene una extensión simple del categorizador de contenido web, que puede separar entre páginas web según su contenido.
- SimpleCrawler: base de araña simple en multihilo, expresión regular.
- DotnetSpider: esta es una araña ligera multiplataforma desarrollada por C#.
- Abot: rastreador web C# creado para ofrecer velocidad y flexibilidad.
- Hawk: herramienta ETL y rastreador avanzado escrita en C#/WPF.
- SkyScraper: un raspador/rastreador web asincrónico que utiliza async/await y extensiones reactivas.
- Infinity Crawler: una biblioteca de rastreadores web sencilla pero potente en C#.
javascript
- scraperjs: un raspador web completo y versátil.
- scrape-it: un raspador de Node.js para humanos.
- simplecrawler: rastreador web controlado por eventos.
- node-crawler: Node-crawler tiene una API limpia y simple.
- js-crawler: rastreador web para Node.JS, se admiten HTTP y HTTPS.
- webster: un marco de rastreo web confiable que puede extraer contenido renderizado ajax y js en una página web.
- x-ray: raspador web con paginación y soporte de rastreador.
- node-osmosis: analizador HTML/XML y raspador web para Node.js.
- web-scraper-chrome-extension: herramienta de extracción de datos web implementada como extensión de Chrome.
- supercrawler: define controladores personalizados para analizar el contenido. Obedece robots.txt, límites de tasa y límites de concurrencia.
- headless-chrome-crawler - Chrome sin cabeza se rastrea con soporte jQuery
- Squidwarc: rastreador de archivos de alta fidelidad, programable por el usuario y que utiliza Chrome o Chromium con o sin cabezal
- Crawlee: una biblioteca de automatización del navegador y raspado web para Node.js que le ayuda a crear rastreadores confiables. Rápido.
PHP
- Goutte: una biblioteca de rastreo web y raspado de pantalla para PHP.
- laravel-goutte - Fachada Laravel 5 para Goutte.
- dom-crawler: el componente DomCrawler facilita la navegación DOM para documentos HTML y XML.
- QueryList: el marco de rastreo PHP progresivo.
- pspider: rastreador web paralelo escrito en PHP.
- php-spider: una araña web PHP configurable y extensible.
- spatie/crawler: un rastreador potente y fácil de usar implementado en PHP. Puede ejecutar Javascript.
- Crawlzone/crawlzone: Crawlzone es un marco de rastreo de Internet asincrónico rápido para PHP.
- PHPScraper: PHPScraper es un raspador y rastreador creado para simplificar.
C++
- motor de búsqueda de código abierto: un motor de búsqueda distribuido de código abierto y una araña/rastreador escrito en C/C++.
do
- httrack: copia sitios web a tu computadora.
Rubí
- Nokogiri: un Rubygem que proporciona analizadores HTML, XML, SAX y Reader con soporte para selectores XPath y CSS.
- upton: un marco que incluye baterías para facilitar el raspado de redes. Simplemente agregue CSS (o haga más).
- wombat: rastreador/scraper web Ruby liviano con un DSL elegante que extrae datos estructurados de las páginas.
- RubyRetriever: RubyRetriever es un rastreador web, un raspador y un recolector de archivos.
- Spidr: rastrea un sitio, múltiples dominios, ciertos enlaces o infinitamente.
- Cobweb: rastreador web con opciones de rastreo muy flexibles, independiente o usando sidekiq.
- mechanize: interacción y rastreo web automatizados.
Óxido
- spider: el indexador y rastreador web más rápido.
- rastreador: un indexador web gRPC turbo cargado para el rendimiento.
R
- rvest: raspado web simple para R.
erlang
- ebot: un rastreador web escalable, distribuido y altamente configurable.
perla
- web-scraper: kit de herramientas de web scraping que utiliza selectores HTML y CSS o expresiones XPath.
Ir
- pholcus: un rastreador web potente, distribuido y de alta concurrencia.
- gocrawl: rastreador web educado, delgado y concurrente.
- fetchbot: un rastreador web simple y flexible que sigue las políticas de robots.txt y los retrasos de rastreo.
- go_spider: un increíble marco de trabajo de rastreador (araña) concurrente de Go.
- dht - Protocolo BitTorrent DHT y DHT Spider.
- ants-go: un motor de rastreo tranquilo, distribuido y de código abierto en golang.
- scrape: una interfaz sencilla y de nivel superior para Go web scraping.
- creeper: el marco de rastreo de próxima generación (Go).
- colly: marco de raspado rápido y elegante para tuzas.
- hurón - Web scraping declarativo.
- Kit de flujo de datos: extraiga datos estructurados de páginas web. Raspado de sitios web.
- Hakrawler: rastreador web simple y rápido diseñado para un descubrimiento fácil y rápido de puntos finales y activos dentro de una aplicación web.
escala
- rastreador: Scala DSL para rastreo web.
- scrala: marco de trabajo Scala Crawler (araña), inspirado en Scrapy.
- ferrit: Ferrit es un servicio de rastreo web escrito en Scala que utiliza Akka, Spray y Cassandra.