สุดยอดโปรแกรมรวบรวมข้อมูล
คอลเลกชันของโปรแกรมรวบรวมข้อมูลเว็บ สไปเดอร์ และแหล่งข้อมูลที่ยอดเยี่ยมในภาษาต่างๆ
สารบัญ
- หลาม
- ชวา
- ค#
- จาวาสคริปต์
- PHP
- ซี++
- ค
- ทับทิม
- สนิม
- ร
- เออร์หลาง
- ภาษาเพิร์ล
- ไป
- สกาล่า
หลาม
- Scrapy - การขูดหน้าจอระดับสูงที่รวดเร็วและเฟรมเวิร์กการรวบรวมข้อมูลเว็บ
- django-dynamic-scraper - การสร้าง Scrapy scraper ผ่านอินเทอร์เฟซผู้ดูแลระบบ Django
- Scrapy-Redis - ส่วนประกอบที่ใช้ Redis สำหรับ Scrapy
- scrapy-cluster - ใช้ Redis และ Kafka เพื่อสร้างคลัสเตอร์การขูดแบบกระจายตามความต้องการ
- distribution_crawler - ใช้ scrapy,redis, mongodb,graphite เพื่อสร้างสไปเดอร์แบบกระจาย
- pyspider - ระบบแมงมุมที่ทรงพลัง
- CoCrawler - โปรแกรมรวบรวมข้อมูลเว็บอเนกประสงค์ที่สร้างขึ้นโดยใช้เครื่องมือที่ทันสมัยและการทำงานพร้อมกัน
- cola - เฟรมเวิร์กการรวบรวมข้อมูลแบบกระจาย
- Demiurge - ไมโครเฟรมเวิร์กการขูดที่ใช้ PyQuery
- Scrapely - ไลบรารี่ขูดหน้าจอ HTML ล้วนๆ
- feedparser - ตัวแยกวิเคราะห์ฟีดสากล
- คุณได้รับ - โปรแกรมดาวน์โหลดใบ้ที่ขูดเว็บ
- MechanicalSoup - ไลบรารี Python สำหรับการโต้ตอบกับเว็บไซต์โดยอัตโนมัติ
- portia - การขูดภาพสำหรับ Scrapy
- crawley - Pythonic Crawling / Scraping Framework ตามการดำเนินการ I/O แบบไม่บล็อก
- RoboBrowser - ไลบรารี Pythonic ที่เรียบง่ายสำหรับการท่องเว็บโดยไม่ต้องใช้เว็บเบราว์เซอร์แบบสแตนด์อโลน
- MSpider - สไปเดอร์ที่เรียบง่ายและใช้งานง่ายโดยใช้ gevent และ js render
- brownant - เฟรมเวิร์กการแยกข้อมูลเว็บแบบน้ำหนักเบา
- PSpider - เฟรมสไปเดอร์ธรรมดาใน Python3
- Gain - เฟรมเวิร์กการรวบรวมข้อมูลเว็บที่อิงตาม asyncio สำหรับทุกคน
- sukhoi - โปรแกรมรวบรวมข้อมูลเว็บที่เรียบง่ายและทรงพลัง
- spidy - โปรแกรมรวบรวมข้อมูลเว็บบรรทัดคำสั่งที่เรียบง่ายและใช้งานง่าย
- หนังสือพิมพ์ - การแยกข้อมูลเมตาของข่าว ข้อความฉบับเต็ม และบทความใน Python 3
- asider - เว็บ async ที่ขูดไมโครเฟรมเวิร์กโดยอิงจาก asyncio
ชวา
- ACHE Crawler - โปรแกรมรวบรวมข้อมูลเว็บที่ใช้งานง่ายสำหรับการค้นหาเฉพาะโดเมน
- Apache Nutch - โปรแกรมรวบรวมข้อมูลเว็บที่ขยายได้สูงและปรับขนาดได้สูงสำหรับสภาพแวดล้อมการใช้งานจริง
- anthelion - ปลั๊กอินสำหรับ Apache Nutch เพื่อรวบรวมข้อมูลคำอธิบายประกอบเชิงความหมายภายในหน้า HTML
- Crawler4j - โปรแกรมรวบรวมข้อมูลเว็บที่เรียบง่ายและมีน้ำหนักเบา
- JSoup - ขูด แยกวิเคราะห์ จัดการ และล้าง HTML
- websphinx - โปรเซสเซอร์เฉพาะเว็บไซต์สำหรับการดึงข้อมูล HTML
- Open Search Server - ฟังก์ชั่นการค้นหาครบชุด สร้างกลยุทธ์การจัดทำดัชนีของคุณเอง Parsers แยกข้อมูลข้อความแบบเต็ม โปรแกรมรวบรวมข้อมูลสามารถจัดทำดัชนีทุกสิ่งได้
- Gecco - โปรแกรมรวบรวมข้อมูลเว็บน้ำหนักเบาที่ใช้งานง่าย
- WebCollector - อินเทอร์เฟซที่เรียบง่ายสำหรับการรวบรวมข้อมูลเว็บ คุณสามารถตั้งค่าโปรแกรมรวบรวมข้อมูลเว็บแบบมัลติเธรดได้ภายในเวลาไม่ถึง 5 นาที
- Webmagic - เฟรมเวิร์กซอฟต์แวร์รวบรวมข้อมูลที่ปรับขนาดได้
- Spiderman - โปรแกรมรวบรวมข้อมูลเว็บแบบมัลติเธรดที่ปรับขนาดได้และขยายได้
- Spiderman2 - เฟรมเวิร์กโปรแกรมรวบรวมข้อมูลเว็บแบบกระจาย รองรับการเรนเดอร์ js
- Heritrix3 - โปรเจ็กต์โปรแกรมรวบรวมข้อมูลเว็บคุณภาพระดับเว็บที่ขยายได้
- SemiCrawler - เฟรมเวิร์กซอฟต์แวร์รวบรวมข้อมูลแบบกระจายที่คล่องตัว
- StormCrawler - คอลเลกชันโอเพ่นซอร์สสำหรับการสร้างโปรแกรมรวบรวมข้อมูลเว็บที่มีเวลาแฝงต่ำและปรับขนาดได้บน Apache Storm
- Spark-Crawler - การพัฒนา Apache Nutch เพื่อทำงานบน Spark
- webBee - เว็บสไปเดอร์ DFS
- Spider-flow - เฟรมเวิร์ก Visual Spider ดีมากจนคุณไม่จำเป็นต้องเขียนโค้ดใดๆ เพื่อรวบรวมข้อมูลเว็บไซต์
- Norconex Web Crawler - Norconex HTTP Collector เป็นโปรแกรมรวบรวมข้อมูลเว็บที่มีคุณสมบัติครบถ้วน (หรือสไปเดอร์) ที่สามารถจัดการและจัดเก็บข้อมูลที่รวบรวมไว้ในพื้นที่เก็บข้อมูลที่คุณเลือก (เช่น โปรแกรมค้นหา) สามารถใช้เป็นแอปพลิเคชันแบบสแตนด์อโลนหรือฝังลงในแอปพลิเคชัน Java
ค#
- โปรแกรมรวบรวมข้อมูล - สร้างขึ้นในเวอร์ชัน C# 3.5 มันมีส่วนขยายอย่างง่ายของตัวจัดหมวดหมู่เนื้อหาเว็บ ซึ่งสามารถแยกระหว่างหน้าเว็บได้ ขึ้นอยู่กับเนื้อหา
- SimpleCrawler - ฐานแมงมุมที่เรียบง่ายบนการอ่านแบบ mutithreading และการแสดงออกปกติ
- DotnetSpider - นี่คือ cross platfrom, ligth Spider ที่พัฒนาโดย C#
- Abot - โปรแกรมรวบรวมข้อมูลเว็บ C# ที่สร้างขึ้นเพื่อความรวดเร็วและความยืดหยุ่น
- Hawk - เครื่องมือ Crawler ขั้นสูงและ ETL ที่เขียนด้วย C#/WPF
- SkyScraper - โปรแกรมรวบรวมข้อมูลเว็บ / โปรแกรมรวบรวมข้อมูลเว็บแบบอะซิงโครนัสโดยใช้ async / await และ Reactive Extensions
- Infinity Crawler - ไลบรารีโปรแกรมรวบรวมข้อมูลเว็บที่เรียบง่ายแต่ทรงพลังใน C#
จาวาสคริปต์
- scraperjs - เครื่องมือขูดเว็บที่สมบูรณ์และหลากหลาย
- scrape-it - เครื่องมือขูด Node.js สำหรับมนุษย์
- simplecrawler - โปรแกรมรวบรวมข้อมูลเว็บที่ขับเคลื่อนด้วยเหตุการณ์
- node-crawler - Node-crawler มี api ที่สะอาดและเรียบง่าย
- js-crawler - โปรแกรมรวบรวมข้อมูลเว็บสำหรับ Node.JS รองรับทั้ง HTTP และ HTTPS
- webster - เฟรมเวิร์กการรวบรวมข้อมูลเว็บที่เชื่อถือได้ซึ่งสามารถขูดเนื้อหาที่แสดงผล ajax และ js ในหน้าเว็บได้
- x-ray - เครื่องขูดเว็บพร้อมการสนับสนุนการแบ่งหน้าและซอฟต์แวร์รวบรวมข้อมูล
- node-osmosis - ตัวแยกวิเคราะห์ HTML/XML และตัวขูดเว็บสำหรับ Node.js
- web-scraper-chrome-extension - เครื่องมือแยกข้อมูลเว็บที่ใช้งานเป็นส่วนขยายของ Chrome
- supercrawler - กำหนดตัวจัดการแบบกำหนดเองเพื่อแยกวิเคราะห์เนื้อหา ปฏิบัติตาม robots.txt ขีดจำกัดอัตรา และขีดจำกัดการทำงานพร้อมกัน
- headless-chrome-crawler - การรวบรวมข้อมูล Chrome ที่ไม่มีหัวพร้อมการสนับสนุน jQuery
- Squidwarc - โปรแกรมรวบรวมข้อมูลเก็บถาวรที่มีความเที่ยงตรงสูง สามารถเขียนสคริปต์ได้ซึ่งใช้ Chrome หรือ Chromium โดยมีหรือไม่มีส่วนหัว
- crawlee - ไลบรารี่การขูดเว็บและเบราว์เซอร์อัตโนมัติสำหรับ Node.js ที่ช่วยคุณสร้างโปรแกรมรวบรวมข้อมูลที่เชื่อถือได้ เร็ว.
PHP
- Goutte - การขูดหน้าจอและการรวบรวมข้อมูลเว็บสำหรับ PHP
- laravel-goutte - หน้า Laravel 5 สำหรับ Goutte
- dom-crawler - คอมโพเนนต์ DomCrawler ช่วยให้การนำทาง DOM สำหรับเอกสาร HTML และ XML ง่ายขึ้น
- QueryList - เฟรมเวิร์กโปรแกรมรวบรวมข้อมูล PHP แบบก้าวหน้า
- pspider - โปรแกรมรวบรวมข้อมูลเว็บแบบขนานที่เขียนด้วย PHP
- php-spider - เว็บสไปเดอร์ PHP ที่กำหนดค่าและขยายได้
- spatie/crawler - โปรแกรมรวบรวมข้อมูลที่มีประสิทธิภาพและใช้งานง่ายใน PHP สามารถรัน Javascript ได้
- crawlzone/crawlzone - Crawlzone เป็นเฟรมเวิร์กการรวบรวมข้อมูลอินเทอร์เน็ตแบบอะซิงโครนัสที่รวดเร็วสำหรับ PHP
- PHPScraper - PHPScraper เป็นโปรแกรมขูดและซอฟต์แวร์รวบรวมข้อมูลที่สร้างขึ้นเพื่อความเรียบง่าย
ซี++
- open-source-search-engine - เครื่องมือค้นหาโอเพ่นซอร์สแบบกระจายและสไปเดอร์ / โปรแกรมรวบรวมข้อมูลที่เขียนด้วย C / C ++
ค
- httrack - คัดลอกเว็บไซต์ไปยังคอมพิวเตอร์ของคุณ
ทับทิม
- Nokogiri - Rubygem ที่ให้ตัวแยกวิเคราะห์ HTML, XML, SAX และ Reader พร้อมรองรับตัวเลือก XPath และ CSS
- upton - เฟรมเวิร์กที่รวมแบตเตอรี่เพื่อการขูดเว็บที่ง่ายดาย เพียงเพิ่ม CSS (หรือทำมากกว่านี้)
- wombat - โปรแกรมรวบรวมข้อมูล/เครื่องขูดเว็บ Ruby น้ำหนักเบาพร้อม DSL ที่หรูหราซึ่งแยกข้อมูลที่มีโครงสร้างออกจากหน้าเว็บ
- RubyRetriever - RubyRetriever เป็น Web Crawler, Scraper & File Harvester
- Spidr - เชื่อมโยงเว็บไซต์ หลายโดเมน ลิงก์บางลิงก์ หรือไม่จำกัด
- Cobweb - โปรแกรมรวบรวมข้อมูลเว็บที่มีตัวเลือกการรวบรวมข้อมูลที่ยืดหยุ่นมาก แบบสแตนด์อโลนหรือใช้ sidekiq
- เครื่องจักร - การโต้ตอบและการรวบรวมข้อมูลบนเว็บอัตโนมัติ
สนิม
- Spider - โปรแกรมรวบรวมข้อมูลและตัวจัดทำดัชนีเว็บที่เร็วที่สุด
- โปรแกรมรวบรวมข้อมูล - ตัวสร้างดัชนีเว็บ gRPC เทอร์โบชาร์จเพื่อประสิทธิภาพ
ร
- rvest - การขูดเว็บอย่างง่ายสำหรับ R
เออร์หลาง
- ebot - web cawler ที่ปรับขนาดได้ กระจายได้ และกำหนดค่าได้สูง
ภาษาเพิร์ล
- web-scraper - ชุดเครื่องมือขูดเว็บโดยใช้ตัวเลือก HTML และ CSS หรือนิพจน์ XPath
ไป
- pholcus - โปรแกรมรวบรวมข้อมูลเว็บแบบกระจายพร้อมกันสูงและทรงพลัง
- gocrawl - โปรแกรมรวบรวมข้อมูลเว็บที่สุภาพ บาง และทำงานพร้อมกัน
- fetchbot - โปรแกรมรวบรวมข้อมูลเว็บที่เรียบง่ายและยืดหยุ่นซึ่งเป็นไปตามนโยบาย robots.txt และความล่าช้าในการรวบรวมข้อมูล
- go_spider - เฟรมเวิร์ก Crawler (spider) พร้อมกันที่ยอดเยี่ยมของ Go
- dht - โปรโตคอล BitTorrent DHT && DHT Spider
- ants-go - โปรแกรมรวบรวมข้อมูลแบบโอเพ่นซอร์สแบบกระจายและเงียบสงบใน golang
- scrape - อินเทอร์เฟซระดับที่เรียบง่ายและสูงกว่าสำหรับการขูดเว็บ Go
- ไม้เลื้อย - กรอบงานซอฟต์แวร์รวบรวมข้อมูลรุ่นต่อไป (Go)
- colly - กรอบการขูดที่รวดเร็วและสง่างามสำหรับโกเฟอร์
- คุ้ยเขี่ย - การขูดเว็บที่ประกาศ
- ชุด Dataflow - แยกข้อมูลที่มีโครงสร้างออกจากหน้าเว็บ การขูดเว็บไซต์
- Hakrawler - โปรแกรมรวบรวมข้อมูลเว็บที่ง่ายและรวดเร็ว ออกแบบมาเพื่อการค้นหาจุดสิ้นสุดและเนื้อหาภายในเว็บแอปพลิเคชันที่ง่ายดายและรวดเร็ว
สกาล่า
- โปรแกรมรวบรวมข้อมูล - Scala DSL สำหรับการรวบรวมข้อมูลเว็บ
- scrala - เฟรมเวิร์ก Scala crawler (spider) ซึ่งได้รับแรงบันดาลใจจาก scrapy
- ferrit - Ferrit เป็นบริการรวบรวมข้อมูลเว็บที่เขียนด้วยภาษา Scala โดยใช้ Akka, Spray และ Cassandra