awesome crawler ดาวน์โหลด - awesome crawler ดาวน์โหลดซอร์สโค้ด

awesome crawler

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

สุดยอดโปรแกรมรวบรวมข้อมูล

คอลเลกชันของโปรแกรมรวบรวมข้อมูลเว็บ สไปเดอร์ และแหล่งข้อมูลที่ยอดเยี่ยมในภาษาต่างๆ

สารบัญ

หลาม
ชวา
ค#
จาวาสคริปต์
PHP
ซี++
ค
ทับทิม
สนิม
ร
เออร์หลาง
ภาษาเพิร์ล
ไป
สกาล่า

หลาม

Scrapy - การขูดหน้าจอระดับสูงที่รวดเร็วและเฟรมเวิร์กการรวบรวมข้อมูลเว็บ
- django-dynamic-scraper - การสร้าง Scrapy scraper ผ่านอินเทอร์เฟซผู้ดูแลระบบ Django
- Scrapy-Redis - ส่วนประกอบที่ใช้ Redis สำหรับ Scrapy
- scrapy-cluster - ใช้ Redis และ Kafka เพื่อสร้างคลัสเตอร์การขูดแบบกระจายตามความต้องการ
- distribution_crawler - ใช้ scrapy,redis, mongodb,graphite เพื่อสร้างสไปเดอร์แบบกระจาย
pyspider - ระบบแมงมุมที่ทรงพลัง
CoCrawler - โปรแกรมรวบรวมข้อมูลเว็บอเนกประสงค์ที่สร้างขึ้นโดยใช้เครื่องมือที่ทันสมัยและการทำงานพร้อมกัน
cola - เฟรมเวิร์กการรวบรวมข้อมูลแบบกระจาย
Demiurge - ไมโครเฟรมเวิร์กการขูดที่ใช้ PyQuery
Scrapely - ไลบรารี่ขูดหน้าจอ HTML ล้วนๆ
feedparser - ตัวแยกวิเคราะห์ฟีดสากล
คุณได้รับ - โปรแกรมดาวน์โหลดใบ้ที่ขูดเว็บ
MechanicalSoup - ไลบรารี Python สำหรับการโต้ตอบกับเว็บไซต์โดยอัตโนมัติ
portia - การขูดภาพสำหรับ Scrapy
crawley - Pythonic Crawling / Scraping Framework ตามการดำเนินการ I/O แบบไม่บล็อก
RoboBrowser - ไลบรารี Pythonic ที่เรียบง่ายสำหรับการท่องเว็บโดยไม่ต้องใช้เว็บเบราว์เซอร์แบบสแตนด์อโลน
MSpider - สไปเดอร์ที่เรียบง่ายและใช้งานง่ายโดยใช้ gevent และ js render
brownant - เฟรมเวิร์กการแยกข้อมูลเว็บแบบน้ำหนักเบา
PSpider - เฟรมสไปเดอร์ธรรมดาใน Python3
Gain - เฟรมเวิร์กการรวบรวมข้อมูลเว็บที่อิงตาม asyncio สำหรับทุกคน
sukhoi - โปรแกรมรวบรวมข้อมูลเว็บที่เรียบง่ายและทรงพลัง
spidy - โปรแกรมรวบรวมข้อมูลเว็บบรรทัดคำสั่งที่เรียบง่ายและใช้งานง่าย
หนังสือพิมพ์ - การแยกข้อมูลเมตาของข่าว ข้อความฉบับเต็ม และบทความใน Python 3
asider - เว็บ async ที่ขูดไมโครเฟรมเวิร์กโดยอิงจาก asyncio

ชวา

ACHE Crawler - โปรแกรมรวบรวมข้อมูลเว็บที่ใช้งานง่ายสำหรับการค้นหาเฉพาะโดเมน
Apache Nutch - โปรแกรมรวบรวมข้อมูลเว็บที่ขยายได้สูงและปรับขนาดได้สูงสำหรับสภาพแวดล้อมการใช้งานจริง
- anthelion - ปลั๊กอินสำหรับ Apache Nutch เพื่อรวบรวมข้อมูลคำอธิบายประกอบเชิงความหมายภายในหน้า HTML
Crawler4j - โปรแกรมรวบรวมข้อมูลเว็บที่เรียบง่ายและมีน้ำหนักเบา
JSoup - ขูด แยกวิเคราะห์ จัดการ และล้าง HTML
websphinx - โปรเซสเซอร์เฉพาะเว็บไซต์สำหรับการดึงข้อมูล HTML
Open Search Server - ฟังก์ชั่นการค้นหาครบชุด สร้างกลยุทธ์การจัดทำดัชนีของคุณเอง Parsers แยกข้อมูลข้อความแบบเต็ม โปรแกรมรวบรวมข้อมูลสามารถจัดทำดัชนีทุกสิ่งได้
Gecco - โปรแกรมรวบรวมข้อมูลเว็บน้ำหนักเบาที่ใช้งานง่าย
WebCollector - อินเทอร์เฟซที่เรียบง่ายสำหรับการรวบรวมข้อมูลเว็บ คุณสามารถตั้งค่าโปรแกรมรวบรวมข้อมูลเว็บแบบมัลติเธรดได้ภายในเวลาไม่ถึง 5 นาที
Webmagic - เฟรมเวิร์กซอฟต์แวร์รวบรวมข้อมูลที่ปรับขนาดได้
Spiderman - โปรแกรมรวบรวมข้อมูลเว็บแบบมัลติเธรดที่ปรับขนาดได้และขยายได้
- Spiderman2 - เฟรมเวิร์กโปรแกรมรวบรวมข้อมูลเว็บแบบกระจาย รองรับการเรนเดอร์ js
Heritrix3 - โปรเจ็กต์โปรแกรมรวบรวมข้อมูลเว็บคุณภาพระดับเว็บที่ขยายได้
SemiCrawler - เฟรมเวิร์กซอฟต์แวร์รวบรวมข้อมูลแบบกระจายที่คล่องตัว
StormCrawler - คอลเลกชันโอเพ่นซอร์สสำหรับการสร้างโปรแกรมรวบรวมข้อมูลเว็บที่มีเวลาแฝงต่ำและปรับขนาดได้บน Apache Storm
Spark-Crawler - การพัฒนา Apache Nutch เพื่อทำงานบน Spark
webBee - เว็บสไปเดอร์ DFS
Spider-flow - เฟรมเวิร์ก Visual Spider ดีมากจนคุณไม่จำเป็นต้องเขียนโค้ดใดๆ เพื่อรวบรวมข้อมูลเว็บไซต์
Norconex Web Crawler - Norconex HTTP Collector เป็นโปรแกรมรวบรวมข้อมูลเว็บที่มีคุณสมบัติครบถ้วน (หรือสไปเดอร์) ที่สามารถจัดการและจัดเก็บข้อมูลที่รวบรวมไว้ในพื้นที่เก็บข้อมูลที่คุณเลือก (เช่น โปรแกรมค้นหา) สามารถใช้เป็นแอปพลิเคชันแบบสแตนด์อโลนหรือฝังลงในแอปพลิเคชัน Java

ค#

โปรแกรมรวบรวมข้อมูล - สร้างขึ้นในเวอร์ชัน C# 3.5 มันมีส่วนขยายอย่างง่ายของตัวจัดหมวดหมู่เนื้อหาเว็บ ซึ่งสามารถแยกระหว่างหน้าเว็บได้ ขึ้นอยู่กับเนื้อหา
SimpleCrawler - ฐานแมงมุมที่เรียบง่ายบนการอ่านแบบ mutithreading และการแสดงออกปกติ
DotnetSpider - นี่คือ cross platfrom, ligth Spider ที่พัฒนาโดย C#
Abot - โปรแกรมรวบรวมข้อมูลเว็บ C# ที่สร้างขึ้นเพื่อความรวดเร็วและความยืดหยุ่น
Hawk - เครื่องมือ Crawler ขั้นสูงและ ETL ที่เขียนด้วย C#/WPF
SkyScraper - โปรแกรมรวบรวมข้อมูลเว็บ / โปรแกรมรวบรวมข้อมูลเว็บแบบอะซิงโครนัสโดยใช้ async / await และ Reactive Extensions
Infinity Crawler - ไลบรารีโปรแกรมรวบรวมข้อมูลเว็บที่เรียบง่ายแต่ทรงพลังใน C#

จาวาสคริปต์

scraperjs - เครื่องมือขูดเว็บที่สมบูรณ์และหลากหลาย
scrape-it - เครื่องมือขูด Node.js สำหรับมนุษย์
simplecrawler - โปรแกรมรวบรวมข้อมูลเว็บที่ขับเคลื่อนด้วยเหตุการณ์
node-crawler - Node-crawler มี api ที่สะอาดและเรียบง่าย
js-crawler - โปรแกรมรวบรวมข้อมูลเว็บสำหรับ Node.JS รองรับทั้ง HTTP และ HTTPS
webster - เฟรมเวิร์กการรวบรวมข้อมูลเว็บที่เชื่อถือได้ซึ่งสามารถขูดเนื้อหาที่แสดงผล ajax และ js ในหน้าเว็บได้
x-ray - เครื่องขูดเว็บพร้อมการสนับสนุนการแบ่งหน้าและซอฟต์แวร์รวบรวมข้อมูล
node-osmosis - ตัวแยกวิเคราะห์ HTML/XML และตัวขูดเว็บสำหรับ Node.js
web-scraper-chrome-extension - เครื่องมือแยกข้อมูลเว็บที่ใช้งานเป็นส่วนขยายของ Chrome
supercrawler - กำหนดตัวจัดการแบบกำหนดเองเพื่อแยกวิเคราะห์เนื้อหา ปฏิบัติตาม robots.txt ขีดจำกัดอัตรา และขีดจำกัดการทำงานพร้อมกัน
headless-chrome-crawler - การรวบรวมข้อมูล Chrome ที่ไม่มีหัวพร้อมการสนับสนุน jQuery
Squidwarc - โปรแกรมรวบรวมข้อมูลเก็บถาวรที่มีความเที่ยงตรงสูง สามารถเขียนสคริปต์ได้ซึ่งใช้ Chrome หรือ Chromium โดยมีหรือไม่มีส่วนหัว
crawlee - ไลบรารี่การขูดเว็บและเบราว์เซอร์อัตโนมัติสำหรับ Node.js ที่ช่วยคุณสร้างโปรแกรมรวบรวมข้อมูลที่เชื่อถือได้ เร็ว.

PHP

Goutte - การขูดหน้าจอและการรวบรวมข้อมูลเว็บสำหรับ PHP
- laravel-goutte - หน้า Laravel 5 สำหรับ Goutte
dom-crawler - คอมโพเนนต์ DomCrawler ช่วยให้การนำทาง DOM สำหรับเอกสาร HTML และ XML ง่ายขึ้น
QueryList - เฟรมเวิร์กโปรแกรมรวบรวมข้อมูล PHP แบบก้าวหน้า
pspider - โปรแกรมรวบรวมข้อมูลเว็บแบบขนานที่เขียนด้วย PHP
php-spider - เว็บสไปเดอร์ PHP ที่กำหนดค่าและขยายได้
spatie/crawler - โปรแกรมรวบรวมข้อมูลที่มีประสิทธิภาพและใช้งานง่ายใน PHP สามารถรัน Javascript ได้
crawlzone/crawlzone - Crawlzone เป็นเฟรมเวิร์กการรวบรวมข้อมูลอินเทอร์เน็ตแบบอะซิงโครนัสที่รวดเร็วสำหรับ PHP
PHPScraper - PHPScraper เป็นโปรแกรมขูดและซอฟต์แวร์รวบรวมข้อมูลที่สร้างขึ้นเพื่อความเรียบง่าย

ซี++

open-source-search-engine - เครื่องมือค้นหาโอเพ่นซอร์สแบบกระจายและสไปเดอร์ / โปรแกรมรวบรวมข้อมูลที่เขียนด้วย C / C ++

ค

httrack - คัดลอกเว็บไซต์ไปยังคอมพิวเตอร์ของคุณ

ทับทิม

Nokogiri - Rubygem ที่ให้ตัวแยกวิเคราะห์ HTML, XML, SAX และ Reader พร้อมรองรับตัวเลือก XPath และ CSS
upton - เฟรมเวิร์กที่รวมแบตเตอรี่เพื่อการขูดเว็บที่ง่ายดาย เพียงเพิ่ม CSS (หรือทำมากกว่านี้)
wombat - โปรแกรมรวบรวมข้อมูล/เครื่องขูดเว็บ Ruby น้ำหนักเบาพร้อม DSL ที่หรูหราซึ่งแยกข้อมูลที่มีโครงสร้างออกจากหน้าเว็บ
RubyRetriever - RubyRetriever เป็น Web Crawler, Scraper & File Harvester
Spidr - เชื่อมโยงเว็บไซต์ หลายโดเมน ลิงก์บางลิงก์ หรือไม่จำกัด
Cobweb - โปรแกรมรวบรวมข้อมูลเว็บที่มีตัวเลือกการรวบรวมข้อมูลที่ยืดหยุ่นมาก แบบสแตนด์อโลนหรือใช้ sidekiq
เครื่องจักร - การโต้ตอบและการรวบรวมข้อมูลบนเว็บอัตโนมัติ

สนิม

Spider - โปรแกรมรวบรวมข้อมูลและตัวจัดทำดัชนีเว็บที่เร็วที่สุด
โปรแกรมรวบรวมข้อมูล - ตัวสร้างดัชนีเว็บ gRPC เทอร์โบชาร์จเพื่อประสิทธิภาพ

ร

rvest - การขูดเว็บอย่างง่ายสำหรับ R

เออร์หลาง

ebot - web cawler ที่ปรับขนาดได้ กระจายได้ และกำหนดค่าได้สูง

ภาษาเพิร์ล

web-scraper - ชุดเครื่องมือขูดเว็บโดยใช้ตัวเลือก HTML และ CSS หรือนิพจน์ XPath

ไป

pholcus - โปรแกรมรวบรวมข้อมูลเว็บแบบกระจายพร้อมกันสูงและทรงพลัง
gocrawl - โปรแกรมรวบรวมข้อมูลเว็บที่สุภาพ บาง และทำงานพร้อมกัน
fetchbot - โปรแกรมรวบรวมข้อมูลเว็บที่เรียบง่ายและยืดหยุ่นซึ่งเป็นไปตามนโยบาย robots.txt และความล่าช้าในการรวบรวมข้อมูล
go_spider - เฟรมเวิร์ก Crawler (spider) พร้อมกันที่ยอดเยี่ยมของ Go
dht - โปรโตคอล BitTorrent DHT && DHT Spider
ants-go - โปรแกรมรวบรวมข้อมูลแบบโอเพ่นซอร์สแบบกระจายและเงียบสงบใน golang
scrape - อินเทอร์เฟซระดับที่เรียบง่ายและสูงกว่าสำหรับการขูดเว็บ Go
ไม้เลื้อย - กรอบงานซอฟต์แวร์รวบรวมข้อมูลรุ่นต่อไป (Go)
colly - กรอบการขูดที่รวดเร็วและสง่างามสำหรับโกเฟอร์
คุ้ยเขี่ย - การขูดเว็บที่ประกาศ
ชุด Dataflow - แยกข้อมูลที่มีโครงสร้างออกจากหน้าเว็บ การขูดเว็บไซต์
Hakrawler - โปรแกรมรวบรวมข้อมูลเว็บที่ง่ายและรวดเร็ว ออกแบบมาเพื่อการค้นหาจุดสิ้นสุดและเนื้อหาภายในเว็บแอปพลิเคชันที่ง่ายดายและรวดเร็ว

สกาล่า

โปรแกรมรวบรวมข้อมูล - Scala DSL สำหรับการรวบรวมข้อมูลเว็บ
scrala - เฟรมเวิร์ก Scala crawler (spider) ซึ่งได้รับแรงบันดาลใจจาก scrapy
ferrit - Ferrit เป็นบริการรวบรวมข้อมูลเว็บที่เขียนด้วยภาษา Scala โดยใช้ Akka, Spray และ Cassandra

ขยาย

ข้อมูลเพิ่มเติม