awesome crawler下载 - awesome crawler源码下载

awesome crawler

其他源码

1.0.0

下载

很棒的爬虫

不同语言的精彩网络爬虫、蜘蛛和资源的集合。

内容

Python
爪哇
C#
JavaScript
PHP
C++
C
红宝石
锈
右
埃尔兰
珀尔
去
斯卡拉

Python

Scrapy - 一个快速的高级屏幕抓取和网络爬行框架。
- django-dynamic-scraper - 通过 Django 管理界面创建 Scrapy scrapers。
- Scrapy-Redis - 用于 Scrapy 的基于 Redis 的组件。
- scrapy-cluster - 使用 Redis 和 Kafka 创建分布式按需抓取集群。
- Distribution_crawler - 使用 scrapy、redis、mongodb、graphite 创建分布式蜘蛛。
pyspider - 一个强大的蜘蛛系统。
CoCrawler - 使用现代工具和并发性构建的多功能网络爬虫。
cola - 分布式爬行框架。
Demiurge - 基于 PyQuery 的抓取微框架。
Scrapely - 一个纯 python HTML 屏幕抓取库。
feedparser - 通用提要解析器。
you-get - 抓取网络的愚蠢下载器。
MechanicalSoup - 用于自动与网站交互的 Python 库。
portia -Scrapy 的视觉抓取.
crawley - 基于非阻塞 I/O 操作的 Pythonic 爬行/抓取框架。
RoboBrowser - 一个简单的 Python 库，无需独立的 Web 浏览器即可浏览 Web。
MSpider - 使用 gevent 和 js 渲染的简单易用的蜘蛛。
Brownant - 一个轻量级的 Web 数据提取框架。
PSpider - Python3 中的简单蜘蛛框架。
Gain - 适合所有人的基于 asyncio 的网络爬虫框架。
sukhoi - 极简且功能强大的网络爬虫。
spidy - 简单、易于使用的命令行网络爬虫。
报纸 - Python 3 中的新闻、全文和文章元数据提取
aspider - 基于 asyncio 的异步网络抓取微框架。

爪哇

ACHE Crawler - 一个易于使用的网络爬虫，用于特定领域的搜索。
Apache Nutch - 适用于生产环境的高度可扩展、高度可扩展的网络爬虫。
- anthelion - Apache Nutch 的一个插件，用于抓取 HTML 页面中的语义注释。
Crawler4j - 简单且轻量级的网络爬虫。
JSoup - 抓取、解析、操作和清理 HTML。
websphinx - 用于 HTML 信息提取的网站特定处理器。
开放搜索服务器 - 全套搜索功能。构建您自己的索引策略。解析器提取全文数据。爬虫可以索引所有内容。
Gecco - 易于使用的轻量级网络爬虫
WebCollector - 用于抓取网络的简单界面，您可以在 5 分钟内设置一个多线程网络爬虫。
Webmagic - 一个可扩展的爬虫框架。
Spiderman - 一个可扩展、可扩展的多线程网络爬虫。
- Spiderman2 - 分布式网络爬虫框架，支持js渲染。
Heritrix3 - 可扩展、网络规模、存档质量的网络爬虫项目。
SeimiCrawler - 一个敏捷的分布式爬虫框架。
StormCrawler - 用于在 Apache Storm 上构建低延迟、可扩展的网络爬虫的开源资源集合
Spark-Crawler - 改进 Apache Nutch 以在 Spark 上运行.
webBee - DFS 网络蜘蛛。
Spider-flow - 一个可视化的蜘蛛框架，它非常好，你不需要编写任何代码来爬行网站。
Norconex Web Crawler - Norconex HTTP Collector 是一个功能齐全的网络爬虫（或蜘蛛），可以操作收集的数据并将其存储到您选择的存储库（例如搜索引擎）中。可以作为独立应用程序使用，也可以嵌入到 Java 应用程序中。

C#

ccrawler - 内置 C# 3.5 版本。它包含一个简单的网页内容分类器扩展，它可以根据网页的内容来区分网页。
SimpleCrawler - 基于多线程、正则表达式的简单蜘蛛。
DotnetSpider - 这是一个由 C# 开发的跨平台、轻型蜘蛛。
Abot - C# 网络爬虫，专为速度和灵活性而构建。
Hawk - 用 C#/WPF 编写的高级爬虫和 ETL 工具。
SkyScraper - 使用 async/await 和 Reactive Extensions 的异步网络抓取器/网络爬虫。
Infinity Crawler - 一个简单但功能强大的 C# 网络爬虫库。

JavaScript

scraperjs - 一个完整且多功能的网络抓取工具。
scrape-it - 面向人类的 Node.js 抓取工具。
simplecrawler - 事件驱动的网络爬虫。
node-crawler - Node-crawler 具有干净、简单的 api.
js-crawler - Node.JS 的网络爬虫，支持 HTTP 和 HTTPS。
webster - 一个可靠的网络爬行框架，可以抓取网页中ajax和js渲染的内容。
x-ray - 具有分页和爬虫支持的网络抓取工具。
node-osmosis - Node.js 的 HTML/XML 解析器和网络抓取器。
web-scraper-chrome-extension - 作为 chrome 扩展实现的 Web 数据提取工具。
supercrawler - 定义自定义处理程序来解析内容。遵守 robots.txt、速率限制和并发限制。
headless-chrome-crawler - 支持 jQuery 的 Headless Chrome 爬行
Squidwarc - 高保真、用户可编写脚本的档案爬虫，使用 Chrome 或 Chromium（带或不带头）
crawlee - Node.js 的网络抓取和浏览器自动化库，可帮助您构建可靠的爬虫。快速地。

PHP

Goutte - PHP 的屏幕抓取和网络爬行库。
- laravel-goutte -Goutte 的 Laravel 5 外观.
dom-crawler - DomCrawler 组件简化了 HTML 和 XML 文档的 DOM 导航。
QueryList - 渐进式 PHP 爬虫框架。
pspider - 用 PHP 编写的并行网络爬虫。
php-spider - 一个可配置且可扩展的 PHP 网络蜘蛛。
spatie/crawler - 用 PHP 实现的易于使用、功能强大的爬虫。可以执行Javascript。
crawlzone/crawlzone -Crawlzone 是 PHP 的快速异步互联网爬行框架。
PHPScraper - PHPScraper 是一个为简单起见而构建的抓取器和爬虫。

C++

open-source-search-engine - 用 C/C++ 编写的分布式开源搜索引擎和蜘蛛/爬虫。

C

httrack - 将网站复制到您的计算机。

红宝石

Nokogiri - 一个 Rubygem，提供 HTML、XML、SAX 和 Reader 解析器，并支持 XPath 和 CSS 选择器。
upton - 一个包含电池的框架，可轻松进行网络抓取。只需添加 CSS（或执行更多操作）。
wombat - 轻量级 Ruby 网络爬虫/抓取器，具有优雅的 DSL，可从页面中提取结构化数据。
RubyRetriever -RubyRetriever 是一个网络爬虫、爬虫和文件收集器。
Spidr - 抓取一个站点、多个域、某些链接或无限。
Cobweb - 具有非常灵活的爬行选项的网络爬虫，可以独立使用或使用 sidekiq。
mechanize - 自动网络交互和爬行。

锈

Spider - 最快的网络爬虫和索引器。
爬虫 - 一个 gRPC Web 索引器，可提高性能。

右

rvest - R 的简单网络抓取。

埃尔兰

ebot - 一个可扩展的、分布式的、高度可配置的 Web Crawler。

珀尔

web-scraper - 使用 HTML 和 CSS 选择器或 XPath 表达式的 Web 抓取工具包。

去

pholcus - 一个分布式、高并发、功能强大的网络爬虫。
gocrawl - 礼貌、苗条且并发的网络爬虫。
fetchbot - 一个简单而灵活的网络爬虫，遵循 robots.txt 策略和爬网延迟。
go_spider - 一个很棒的 Go 并发爬虫（spider）框架。
dht - BitTorrent DHT 协议 && DHT Spider。
ants-go - golang 中的开源、分布式、宁静的爬虫引擎。
scrape - 用于 Go 网络抓取的简单、更高级别的界面。
Creeper - 下一代爬虫框架（Go）。
colly - 快速而优雅的 Gophers 抓取框架。
ferret - 声明性网络抓取。
数据流套件 - 从网页中提取结构化数据。网站抓取。
Hakrawler - 简单、快速的网络爬虫，旨在轻松、快速地发现网络应用程序中的端点和资产

斯卡拉

crawler - 用于网络爬行的 Scala DSL。
scrala -Scala 爬虫（蜘蛛）框架，灵感来自 scrapy.
ferrit - Ferrit 是使用 Akka、Spray 和 Cassandra 用 Scala 编写的网络爬虫服务.

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2025-01-03
大小 6.89KB
来自于 Github

awesome crawler

很棒的爬虫

内容

Python

爪哇

C#

JavaScript

PHP

C++

C

红宝石

锈

右

埃尔兰

珀尔

去

斯卡拉

awesome citygml

nhentai comic crawler

Web crawler novels

awesome swift

Awesome Devil游戏

桥履带式

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

wp functions

termwind