Rastreador incrível
Uma coleção de rastreadores, aranhas e recursos incríveis em diferentes idiomas.
Conteúdo
- Pitão
- Java
- C#
- JavaScript
- PHP
- C++
- C
- Rubi
- Ferrugem
- R
- Erlang
- Perl
- Ir
- escala
Pitão
- Scrapy - Uma estrutura rápida de raspagem de tela e rastreamento da web de alto nível.
- django-dynamic-scraper - Criando scrapers Scrapy através da interface de administração do Django.
- Scrapy-Redis - Componentes baseados em Redis para Scrapy.
- scrapy-cluster - usa Redis e Kafka para criar um cluster de raspagem distribuído sob demanda.
- distribuir_crawler - Usa scrapy,redis, mongodb,graphite para criar um spider distribuído.
- pyspider - Um poderoso sistema de aranha.
- CoCrawler – Um rastreador web versátil construído com ferramentas modernas e simultaneidade.
- cola - Uma estrutura de rastreamento distribuída.
- Demiurge - microestrutura de raspagem baseada em PyQuery.
- Scrapely - Uma biblioteca de captura de tela HTML puro em python.
- feedparser - Analisador de feed universal.
- you-get - Downloader idiota que vasculha a web.
- MechanicalSoup – Uma biblioteca Python para automatizar a interação com sites.
- portia - Raspagem visual para Scrapy.
- crawley - Estrutura Pythonic de rastreamento/raspagem baseada em operações de E/S sem bloqueio.
- RoboBrowser - Uma biblioteca Pythonic simples para navegar na web sem um navegador independente.
- MSpider - Um spider simples e fácil usando gevent e js render.
- brownant - Uma estrutura leve de extração de dados da web.
- PSpider - Um quadro de aranha simples em Python3.
- Gain - Estrutura de rastreamento da Web baseada em assíncio para todos.
- sukhoi - Web Crawler minimalista e poderoso.
- Spidy - O rastreador da web de linha de comando simples e fácil de usar.
- jornal - Extração de metadados de notícias, texto completo e artigos em Python 3
- aspider - Uma microestrutura assíncrona de web scraping baseada em asyncio.
Java
- ACHE Crawler - Um rastreador da web fácil de usar para pesquisas específicas de domínios.
- Apache Nutch - rastreador da web altamente extensível e escalável para ambiente de produção.
- anthelion - Um plugin para Apache Nutch para rastrear anotações semânticas em páginas HTML.
- Crawler4j – Rastreador web simples e leve.
- JSoup - Raspa, analisa, manipula e limpa HTML.
- websphinx - Processadores específicos de sites para extração de informações HTML.
- Open Search Server - Um conjunto completo de funções de pesquisa. Construa sua própria estratégia de indexação. Os analisadores extraem dados de texto completo. Os rastreadores podem indexar tudo.
- Gecco – Um rastreador web leve e fácil de usar
- WebCollector - Interfaces simples para rastrear a Web, você pode configurar um rastreador da Web multithread em menos de 5 minutos.
- Webmagic - Uma estrutura de rastreador escalonável.
- Homem-Aranha - Um rastreador da web escalonável, extensível e multithread.
- Spiderman2 - Uma estrutura de rastreador da web distribuída, com suporte para renderização js.
- Heritrix3 - Projeto de rastreador da Web extensível, em escala web e com qualidade de arquivamento.
- SeimiCrawler – Uma estrutura de rastreador ágil e distribuída.
- StormCrawler - Uma coleção de recursos de código aberto para a construção de rastreadores da Web escaláveis e de baixa latência no Apache Storm
- Spark-Crawler - Evoluindo o Apache Nutch para rodar no Spark.
- webBee - Um web spider DFS.
- spider-flow - Uma estrutura visual de aranha, é tão boa que você não precisa escrever nenhum código para rastrear o site.
- Norconex Web Crawler - Norconex HTTP Collector é um web crawler (ou spider) completo que pode manipular e armazenar dados coletados em um repositório de sua escolha (por exemplo, um mecanismo de busca). Pode ser usado como um aplicativo independente ou incorporado em aplicativos Java.
C#
- ccrawler - Construído na versão C# 3.5. ele contém uma extensão simples de categorizador de conteúdo da web, que pode separar as páginas da web dependendo de seu conteúdo.
- SimpleCrawler - Spider simples baseado em multithreading, expressão regular.
- DotnetSpider - Esta é uma plataforma cruzada e leve spider desenvolvida por C#.
- Abot - rastreador da web C# desenvolvido para oferecer velocidade e flexibilidade.
- Hawk - Ferramenta avançada de crawler e ETL escrita em C#/WPF.
- SkyScraper - Um web scraper/rastreador assíncrono usando async/await e extensões reativas.
- Infinity Crawler - Uma biblioteca de rastreadores da web simples, mas poderosa em C#.
JavaScript
- scraperjs – Um web scraper completo e versátil.
- scrape-it - Um raspador Node.js para humanos.
- simplecrawler - rastreador da web orientado a eventos.
- node-crawler - O node-crawler possui uma API limpa e simples.
- js-crawler - rastreador da Web para Node.JS, com suporte para HTTP e HTTPS.
- webster - Uma estrutura confiável de rastreamento da web que pode extrair conteúdo renderizado em ajax e js em uma página da web.
- raio-x - Web scraper com paginação e suporte a crawler.
- node-osmosis - analisador HTML/XML e web scraper para Node.js.
- web-scraper-chrome-extension - Ferramenta de extração de dados da Web implementada como extensão do Chrome.
- supercrawler - Defina manipuladores personalizados para analisar o conteúdo. Obedece robots.txt, limites de taxa e limites de simultaneidade.
- headless-chrome-crawler - Rastreamentos sem cabeça do Chrome com suporte a jQuery
- Squidwarc - Rastreador de arquivamento de alta fidelidade, programável pelo usuário, que usa Chrome ou Chromium com ou sem cabeça
- crawlee - Uma biblioteca de web scraping e automação de navegador para Node.js que ajuda a construir rastreadores confiáveis. Rápido.
PHP
- Goutte - Uma biblioteca de captura de tela e rastreamento da web para PHP.
- laravel-goutte - Fachada do Laravel 5 para Goutte.
- dom-crawler - O componente DomCrawler facilita a navegação DOM para documentos HTML e XML.
- QueryList - A estrutura progressiva do rastreador PHP.
- pspider - Rastreador da web paralelo escrito em PHP.
- php-spider - Um web spider configurável e extensível em PHP.
- spatie/crawler - Um rastreador poderoso e fácil de usar implementado em PHP. Pode executar Javascript.
- crawlzone/crawlzone - Crawlzone é uma estrutura de rastreamento rápido e assíncrono da Internet para PHP.
- PHPScraper - PHPScraper é um raspador e rastreador criado para simplificar.
C++
- mecanismo de pesquisa de código aberto - Um mecanismo de pesquisa de código aberto distribuído e spider/crawler escrito em C/C++.
C
- httrack - Copie sites para o seu computador.
Rubi
- Nokogiri - Um Rubygem que fornece analisadores HTML, XML, SAX e Reader com suporte a seletores XPath e CSS.
- upton - Uma estrutura com baterias incluídas para facilitar a raspagem da web. Basta adicionar CSS (ou fazer mais).
- wombat - rastreador / raspador leve em Ruby com um DSL elegante que extrai dados estruturados das páginas.
- RubyRetriever - RubyRetriever é um rastreador, raspador e coletor de arquivos da Web.
- Spidr - Spider em um site, vários domínios, determinados links ou infinitamente.
- Cobweb - rastreador da Web com opções de rastreamento muito flexíveis, autônomo ou usando sidekiq.
- mecanizar - Interação e rastreamento automatizados na web.
Ferrugem
- spider - O rastreador e indexador da web mais rápido.
- crawler - Um indexador da web gRPC turbo carregado para desempenho.
R
- rvest - Web scraping simples para R.
Erlang
- ebot - Um web cawler escalável, distribuído e altamente configurável.
Perl
- web-scraper - Web Scraping Toolkit usando seletores HTML e CSS ou expressões XPath.
Ir
- pholcus - Um rastreador da web distribuído, de alta simultaneidade e poderoso.
- gocrawl - rastreador da web educado, fino e simultâneo.
- fetchbot - Um rastreador da web simples e flexível que segue as políticas do robots.txt e atrasos de rastreamento.
- go_spider - Uma estrutura incrível de Crawler (spider) simultâneo do Go.
- dht - Protocolo BitTorrent DHT && DHT Spider.
- ants-go - Um mecanismo rastreador de código aberto, distribuído e tranquilo em golang.
- scrape - Uma interface simples e de nível superior para web scraping Go.
- trepadeira - A estrutura do crawler da próxima geração (Go).
- colly - Estrutura de raspagem rápida e elegante para esquilos.
- furão - Web scraping declarativo.
- Kit Dataflow - Extraia dados estruturados de páginas da web. Raspagem de sites.
- Hakrawler - rastreador da web simples e rápido, projetado para descoberta fácil e rápida de endpoints e ativos em um aplicativo da web
escala
- crawler - Scala DSL para rastreamento da web.
- scrala - Estrutura do rastreador Scala (spider), inspirada no scrapy.
- ferrit - Ferrit é um serviço rastreador da web escrito em Scala usando Akka, Spray e Cassandra.