Perayap yang luar biasa
Kumpulan perayap web, laba-laba, dan sumber daya yang mengagumkan dalam berbagai bahasa.
Isi
- ular piton
- Jawa
- C#
- JavaScript
- PHP
- C++
- C
- Rubi
- Karat
- R
- Erlang
- Perl
- Pergi
- Skala
ular piton
- Scrapy - Kerangka kerja pengikisan layar dan perayapan web tingkat tinggi yang cepat.
- django-dynamic-scraper - Membuat scraper Scrapy melalui antarmuka admin Django.
- Scrapy-Redis - Komponen berbasis Redis untuk Scrapy.
- scrapy-cluster - Menggunakan Redis dan Kafka untuk membuat cluster scraping terdistribusi sesuai permintaan.
- distribution_crawler - Menggunakan scrapy,redis, mongodb,graphite untuk membuat laba-laba terdistribusi.
- pyspider - Sistem laba-laba yang kuat.
- CoCrawler - Perayap web serbaguna yang dibuat menggunakan alat modern dan konkurensi.
- cola - Kerangka kerja perayapan terdistribusi.
- Demiurge - kerangka mikro pengikisan berbasis PyQuery.
- Scrapely - Pustaka pengikis layar HTML python murni.
- feedparser - Pengurai umpan universal.
- you-get - Pengunduh bodoh yang menggores web.
- MechanicalSoup - Pustaka Python untuk mengotomatisasi interaksi dengan situs web.
- portia - Goresan visual untuk Scrapy.
- crawley - Kerangka Perayapan/Pengikisan Pythonic berdasarkan operasi I/O Tanpa Pemblokiran.
- RoboBrowser - Pustaka Pythonic sederhana untuk menjelajahi web tanpa browser web mandiri.
- MSpider - Laba-laba sederhana dan mudah menggunakan gevent dan js render.
- brownant - Kerangka kerja ekstraksi data web yang ringan.
- PSpider - Bingkai laba-laba sederhana dengan Python3.
- Keuntungan - Kerangka kerja perayapan web berdasarkan asyncio untuk semua orang.
- sukhoi - Perayap Web yang minimalis dan kuat.
- spidy - Perayap web baris perintah yang sederhana dan mudah digunakan.
- koran - Ekstraksi metadata berita, teks lengkap, dan artikel dengan Python 3
- aspider - Kerangka mikro pengikisan web async berdasarkan asyncio.
Jawa
- ACHE Crawler - Perayap web yang mudah digunakan untuk pencarian khusus domain.
- Apache Nutch - Perayap web yang sangat dapat diperluas dan sangat skalabel untuk lingkungan produksi.
- anthelion - Sebuah plugin untuk Apache Nutch untuk merayapi anotasi semantik dalam halaman HTML.
- Crawler4j - Perayap web sederhana dan ringan.
- JSoup - Mengikis, mem-parsing, memanipulasi dan membersihkan HTML.
- websphinx - Prosesor Khusus Situs Web untuk ekstraksi informasi HTML.
- Buka Server Pencarian - Satu set lengkap fungsi pencarian. Bangun strategi pengindeksan Anda sendiri. Parser mengekstrak data teks lengkap. Perayap dapat mengindeks semuanya.
- Gecco - Perayap web ringan yang mudah digunakan
- WebCollector - Antarmuka sederhana untuk merayapi Web, Anda dapat menyiapkan perayap web multi-utas dalam waktu kurang dari 5 menit.
- Webmagic - Kerangka kerja perayap yang dapat diskalakan.
- Spiderman - Perayap web multi-thread yang dapat diskalakan, diperluas.
- Spiderman2 - Kerangka kerja perayap web terdistribusi, mendukung render js.
- Heritrix3 - Proyek perayap web yang dapat diperluas, berskala web, dan berkualitas arsip.
- SeimiCrawler - Kerangka kerja perayap yang gesit dan terdistribusi.
- StormCrawler - Kumpulan sumber daya open source untuk membangun perayap web berlatensi rendah dan dapat diskalakan di Apache Storm
- Spark-Crawler - Mengembangkan Apache Nutch untuk dijalankan di Spark.
- webBee - Laba-laba web DFS.
- spider-flow - Kerangka laba-laba visual, sangat bagus sehingga Anda tidak perlu menulis kode apa pun untuk merayapi situs web.
- Norconex Web Crawler - Norconex HTTP Collector adalah web crawler (atau laba-laba) berfitur lengkap yang dapat memanipulasi dan menyimpan data yang dikumpulkan ke dalam repositori pilihan Anda (misalnya mesin pencari). Dapat digunakan sebagai aplikasi yang berdiri sendiri atau ditanamkan ke dalam aplikasi Java.
C#
- ccrawler - Dibangun pada versi C# 3.5. ini berisi ekstensi sederhana dari pengkategorian konten web, yang dapat memisahkan halaman web tergantung pada kontennya.
- SimpleCrawler - Laba-laba sederhana berdasarkan mutithreading, ekspresi reguler.
- DotnetSpider - Ini adalah platform silang, laba-laba ringan yang dikembangkan oleh C#.
- Abot - Perayap web C# dibuat untuk kecepatan dan fleksibilitas.
- Hawk - Alat Perayap dan ETL Tingkat Lanjut yang ditulis dalam C#/WPF.
- SkyScraper - Pengikis web / perayap web asinkron yang menggunakan ekstensi async / menunggu dan Reaktif.
- Infinity Crawler - Pustaka perayap web yang sederhana namun kuat di C#.
JavaScript
- scraperjs - Scraper web yang lengkap dan serbaguna.
- scrape-it - Scraper Node.js untuk manusia.
- simplecrawler - Perayap web berbasis peristiwa.
- node-crawler - Node-crawler memiliki api yang bersih dan sederhana.
- js-crawler - Perayap web untuk Node.JS, baik HTTP maupun HTTPS didukung.
- webster - Kerangka kerja perayapan web andal yang dapat mengikis konten ajax dan js yang dirender di halaman web.
- x-ray - Pengikis web dengan dukungan penomoran halaman dan perayap.
- node-osmosis - parser HTML/XML dan scraper web untuk Node.js.
- web-scraper-chrome-extension - Alat ekstraksi data web diimplementasikan sebagai ekstensi chrome.
- supercrawler - Tentukan penangan khusus untuk mengurai konten. Mematuhi robots.txt, batas kecepatan, dan batas konkurensi.
- headless-chrome-crawler - Perayapan Chrome tanpa kepala dengan dukungan jQuery
- Squidwarc - Perayap arsip dengan fidelitas tinggi, dapat ditulis pengguna, dan menggunakan Chrome atau Chromium dengan atau tanpa head
- crawlee - Pustaka web scraping dan otomatisasi browser untuk Node.js yang membantu Anda membangun crawler yang andal. Cepat.
PHP
- Goutte - Perpustakaan pengikisan layar dan perayapan web untuk PHP.
- laravel-goutte - Fasad Laravel 5 untuk Goutte.
- dom-crawler - Komponen DomCrawler memudahkan navigasi DOM untuk dokumen HTML dan XML.
- QueryList - Kerangka kerja perayap PHP progresif.
- pspider - Perayap web paralel yang ditulis dalam PHP.
- php-spider - Laba-laba web PHP yang dapat dikonfigurasi dan diperluas.
- spatie/crawler - Perayap kuat yang mudah digunakan dan diimplementasikan dalam PHP. Dapat mengeksekusi Javascript.
- crawlzone/crawlzone - Crawlzone adalah kerangka kerja perayapan internet asinkron yang cepat untuk PHP.
- PHPScraper - PHPScraper adalah scraper & crawler yang dibuat untuk kesederhanaan.
C++
- mesin pencari sumber terbuka - Mesin pencari sumber terbuka terdistribusi dan spider/crawler yang ditulis dalam C/C++.
C
- httrack - Menyalin situs web ke komputer Anda.
Rubi
- Nokogiri - Rubygem yang menyediakan parser HTML, XML, SAX, dan Reader dengan dukungan pemilih XPath dan CSS.
- upton - Kerangka kerja yang dilengkapi baterai untuk memudahkan pengikisan web. Cukup tambahkan CSS (Atau lakukan lebih banyak).
- wombat - Perayap/pengikis web Ruby yang ringan dengan DSL elegan yang mengekstrak data terstruktur dari halaman.
- RubyRetriever - RubyRetriever adalah Web Crawler, Scraper & File Harvester.
- Spidr - Spider situs, banyak domain, tautan tertentu, atau tanpa batas.
- Cobweb - Perayap web dengan opsi perayapan yang sangat fleksibel, mandiri atau menggunakan sidekiq.
- mekanisasi - Interaksi & perayapan web otomatis.
Karat
- spider - Perayap dan pengindeks web tercepat.
- crawler - Turbo pengindeks web gRPC dikenakan biaya untuk kinerja.
R
- rvest - Pengikisan web sederhana untuk R.
Erlang
- ebot - Penjelajah web yang dapat diskalakan, terdistribusi, dan sangat dapat dikonfigurasi.
Perl
- web-scraper - Web Scraping Toolkit menggunakan HTML dan CSS Selectors atau ekspresi XPath.
Pergi
- pholcus - Perayap web yang terdistribusi, konkurensi tinggi, dan kuat.
- gocrawl - Perayap web yang sopan, ramping, dan bersamaan.
- ambilbot - Perayap web sederhana dan fleksibel yang mengikuti kebijakan robots.txt dan penundaan perayapan.
- go_spider - Kerangka kerja Crawler (spider) Go bersamaan yang mengagumkan.
- dht - Protokol DHT BitTorrent && DHT Spider.
- ants-go - Mesin perayap open source, terdistribusi, dan tenang di golang.
- mengikis - Antarmuka sederhana dan tingkat lebih tinggi untuk pengikisan web Go.
- menjalar - Kerangka Perayap Generasi Selanjutnya (Go).
- colly - Kerangka Scraping yang Cepat dan Elegan untuk Gophers.
- musang - Pengikisan web deklaratif.
- Kit aliran data - Ekstrak data terstruktur dari halaman web. Pengikisan situs web.
- Hakrawler - Perayap web sederhana dan cepat yang dirancang untuk penemuan titik akhir dan aset dalam aplikasi web dengan mudah dan cepat
Skala
- perayap - Scala DSL untuk perayapan web.
- scrala - Kerangka Scala crawler (laba-laba), terinspirasi oleh scrapy.
- ferrit - Ferrit adalah layanan perayap web yang ditulis dalam Scala menggunakan Akka, Spray, dan Cassandra.