رهيبة الزاحف
مجموعة من برامج زحف الويب والعنكبوت والموارد الرائعة بلغات مختلفة.
محتويات
- بايثون
- جافا
- ج#
- جافا سكريبت
- PHP
- سي ++
- ج
- روبي
- الصدأ
- ر
- إرلانج
- بيرل
- يذهب
- سكالا
بايثون
- Scrapy - إطار عمل سريع لمسح الشاشة والزحف على الويب.
- django-dynamic-scraper - إنشاء كاشطات Scrapy عبر واجهة إدارة Django.
- Scrapy-Redis - المكونات المستندة إلى Redis لـ Scrapy.
- مجموعة سكرابي - تستخدم Redis وKafka لإنشاء مجموعة تجريف موزعة حسب الطلب.
- Distribute_crawler - يستخدم Scrapy، Redis، mongodb، الجرافيت لإنشاء عنكبوت موزع.
- pyspider - نظام عنكبوتي قوي.
- CoCrawler - زاحف ويب متعدد الاستخدامات تم تصميمه باستخدام الأدوات الحديثة والتزامن.
- كولا - إطار زحف موزع.
- Demiurge - إطار عمل صغير يعتمد على PyQuery.
- Scrapely - مكتبة تجريف شاشة HTML خالصة بلغة Python.
- Feedparser - محلل التغذية العالمي.
- you-get - برنامج تنزيل غبي يقوم بمسح الويب.
- MechanicalSoup - مكتبة بايثون لأتمتة التفاعل مع مواقع الويب.
- بورتيا - تجريف مرئي لـ Scrapy.
- Crawley - إطار عمل الزحف / الكشط Pythonic استنادًا إلى عمليات الإدخال / الإخراج غير المحظورة.
- RoboBrowser - مكتبة بايثونية بسيطة لتصفح الويب بدون متصفح ويب مستقل.
- MSpider - عنكبوت بسيط وسهل يستخدم عرض gevent وjs.
- Brownant - إطار عمل خفيف الوزن لاستخراج بيانات الويب.
- PSpider - إطار عنكبوت بسيط في Python3.
- Gain - إطار عمل لزحف الويب يعتمد على عدم المزامنة للجميع.
- sukhoi - زاحف الويب البسيط والقوي.
- spidi - زاحف الويب البسيط وسهل الاستخدام لسطر الأوامر.
- الجريدة - استخراج البيانات الوصفية للأخبار والنصوص الكاملة والمقالات في Python 3
- aspider - إطار ويب صغير غير متزامن يعتمد على عدم المزامنة.
جافا
- ACHE Crawler - متتبع ويب سهل الاستخدام للبحث الخاص بالمجال.
- Apache Nutch - زاحف ويب عالي التوسيع وقابل للتطوير بدرجة كبيرة لبيئة الإنتاج.
- anthelion - مكون إضافي لـ Apache Nutch للزحف إلى التعليقات التوضيحية الدلالية داخل صفحات HTML.
- Crawler4j - متتبع ويب بسيط وخفيف الوزن.
- JSoup - يتخلص من HTML ويوزعه ويتلاعب به وينظفه.
- websphinx - معالجات خاصة بموقع الويب لاستخراج معلومات HTML.
- فتح خادم البحث - مجموعة كاملة من وظائف البحث. بناء استراتيجية الفهرسة الخاصة بك. يقوم الموزعون باستخراج بيانات النص الكامل. يمكن لبرامج الزحف فهرسة كل شيء.
- Gecco - متتبع ويب خفيف الوزن وسهل الاستخدام
- WebCollector - واجهات بسيطة للزحف إلى الويب، يمكنك إعداد زاحف ويب متعدد الخيوط في أقل من 5 دقائق.
- Webmagic - إطار عمل زاحف قابل للتطوير.
- سبايدرمان - زاحف ويب متعدد الخيوط قابل للتطوير وقابل للتوسيع.
- Spiderman2 - إطار عمل لزاحف الويب الموزع، يدعم تقديم js.
- Heritrix3 - مشروع زاحف ويب قابل للتوسعة وعلى نطاق الويب وذو جودة أرشيفية.
- SeimiCrawler - إطار عمل زاحف رشيق وموزع.
- StormCrawler - مجموعة مفتوحة المصدر من الموارد لبناء برامج زحف ويب ذات زمن وصول منخفض وقابلة للتطوير على Apache Storm
- Spark-Crawler - تطوير Apache Nutch ليعمل على Spark.
- webBee - عنكبوت الويب DFS.
- Spider-flow - إطار عنكبوتي مرئي، وهو جيد جدًا لدرجة أنك لا تحتاج إلى كتابة أي تعليمات برمجية للزحف إلى موقع الويب.
- Norconex Web Crawler - Norconex HTTP Collector هو متتبع ويب كامل المواصفات (أو عنكبوت) يمكنه معالجة البيانات المجمعة وتخزينها في مستودع من اختيارك (على سبيل المثال، محرك بحث). يمكن استخدامه كتطبيق مستقل أو يمكن تضمينه في تطبيقات Java.
ج#
- Ccrawler - إصدار C# 3.5 مدمج. يحتوي على امتداد بسيط لمصنف محتوى الويب، والذي يمكنه الفصل بين صفحات الويب حسب محتواها.
- SimpleCrawler - قاعدة عنكبوتية بسيطة تعتمد على الترابط المتعدد والتعبير المنتظم.
- DotnetSpider - هذا عبارة عن منصة متقاطعة، تم تطوير عنكبوت خفيف بواسطة C#.
- Abot - متتبع ويب C# مصمم للسرعة والمرونة.
- Hawk - أداة الزاحف وETL المتقدمة المكتوبة بلغة C#/WPF.
- SkyScraper - مكشطة ويب / زاحف ويب غير متزامن يستخدم الإضافات غير المتزامنة / الانتظار والملحقات التفاعلية.
- Infinity Crawler - مكتبة زاحف ويب بسيطة ولكنها قوية في لغة C#.
جافا سكريبت
- Scraperjs - مكشطة ويب كاملة ومتعددة الاستخدامات.
- Scrape-it - مكشطة Node.js للبشر.
- Simplecrawler - زاحف الويب المبني على الأحداث.
- زاحف العقدة - يحتوي زاحف العقدة على واجهة برمجة تطبيقات نظيفة وبسيطة.
- js-crawler - زاحف الويب لـ Node.JS، ويتم دعم كل من HTTP وHTTPS.
- webster - إطار عمل موثوق لزحف الويب يمكنه استخلاص المحتوى المعروض بواسطة ajax وjs في صفحة الويب.
- الأشعة السينية - مكشطة الويب مع دعم ترقيم الصفحات والزاحف.
- Node-osmosis - محلل HTML/XML ومكشط الويب لـ Node.js.
- web-scraper-chrome-extension - أداة استخراج بيانات الويب يتم تنفيذها كامتداد chrome.
- supercrawler - تحديد معالجات مخصصة لتحليل المحتوى. يلتزم بملف robots.txt وحدود المعدل وحدود التزامن.
- headless-chrome-crawler - يزحف Chrome بدون رأس بدعم jQuery
- Squidwarc - زاحف أرشيفي عالي الدقة وقابل للبرمجة من قبل المستخدم ويستخدم Chrome أو Chromium برأس أو بدونه
- Crawlee - مكتبة لتجميع الويب وأتمتة المتصفح لـ Node.js تساعدك على إنشاء برامج زحف موثوقة. سريع.
PHP
- Goutte - مكتبة لمسح الشاشة والزحف على الويب لـ PHP.
- laravel-goutte - واجهة Laravel 5 للنقرس.
- dom-crawler - يعمل مكون DomCrawler على تسهيل التنقل في DOM لمستندات HTML وXML.
- QueryList - إطار عمل زاحف PHP التقدمي.
- pspider - زاحف الويب الموازي المكتوب بلغة PHP.
- php-spider - عنكبوت ويب PHP قابل للتكوين والتوسيع.
- spatie/crawler - زاحف قوي وسهل الاستخدام يتم تنفيذه بلغة PHP. يمكن تنفيذ جافا سكريبت.
- Crawlzone/crawlzone - Crawlzone عبارة عن إطار عمل سريع غير متزامن لزحف الإنترنت لـ PHP.
- PHPScraper - PHPScraper عبارة عن مكشطة وزاحف مصمم للبساطة.
سي ++
- محرك بحث مفتوح المصدر - محرك بحث مفتوح المصدر وموزع وعنكبوت/زاحف مكتوب بلغة C/C++.
ج
- httrack - نسخ مواقع الويب إلى جهاز الكمبيوتر الخاص بك.
روبي
- Nokogiri - Rubygem يوفر محللي HTML وXML وSAX وReader مع دعم محدد XPath وCSS.
- upton - إطار عمل مزود بالبطاريات لسهولة تجريف الويب. فقط أضف CSS (أو افعل المزيد).
- Wombat - زاحف/مكشطة ويب Ruby خفيف الوزن مع DSL أنيق يستخرج البيانات المنظمة من الصفحات.
- RubyRetriever - RubyRetriever عبارة عن زاحف ويب ومكشطة وأداة حصادة للملفات.
- Spidr - عنكبوت موقع، مجالات متعددة، روابط معينة أو لا نهائية.
- Cobweb - متتبع ويب مزود بخيارات زحف مرنة للغاية، مستقل أو باستخدام Sidekiq.
- المكننة - التفاعل الآلي على شبكة الإنترنت والزحف.
الصدأ
- العنكبوت - أسرع زاحف ومفهرس ويب.
- الزاحف - محرك توربو لمفهرس الويب gRPC مشحون للأداء.
ر
- rvest - تجريف الويب البسيط لـ R.
إرلانج
- ebot - أداة ويب قابلة للتطوير وموزعة وقابلة للتكوين بشكل كبير.
بيرل
- web-scraper - مجموعة أدوات تجريف الويب باستخدام محددات HTML وCSS أو تعبيرات XPath.
يذهب
- holcus - زاحف ويب موزع وعالي التزامن وقوي.
- gocrawl - متتبع ويب مهذب ونحيف ومتزامن.
- fetchbot - زاحف ويب بسيط ومرن يتبع سياسات robots.txt وتأخيرات الزحف.
- go_spider - إطار عمل الزاحف (العنكبوت) المتزامن الرائع.
- dht - بروتوكول BitTorrent DHT && DHT Spider.
- ants-go - محرك زاحف مفتوح المصدر وموزع ومريح في جولانج.
- Scrape - واجهة بسيطة وعالية المستوى لـ Go web سكرابينغ.
- الزاحف - إطار عمل الزاحف من الجيل التالي (Go).
- كولي - إطار تجريف سريع وأنيق للغوفر.
- النمس - تجريف الويب التعريفي.
- مجموعة تدفق البيانات - استخراج البيانات المنظمة من صفحات الويب. سحق مواقع الويب.
- Hakrawler - زاحف ويب بسيط وسريع مصمم للاكتشاف السهل والسريع لنقاط النهاية والأصول داخل تطبيق الويب
سكالا
- الزاحف - Scala DSL للزحف على الويب.
- Scrala - إطار زاحف Scala (العنكبوت)، مستوحى من سكرابي.
- Ferrit - Ferrit عبارة عن خدمة زاحف ويب مكتوبة بلغة Scala باستخدام Akka وSpray وCassandra.