تنزيل SwatchBharatUrbanCrawler - تنزيل كود المصدر SwatchBharatUrbanCrawler

SwatchBharatUrbanCrawler

فئات أخرى

1.0.0

تنزيل

سواتش بهارات الحضرية الزاحف

هذا هو الزاحف الذي يزحف إلى موقع الويب الكامل https://sbmurban.org/rrr-centers ويستخرج المعلومات الكاملة.

عن

تم إنشاء هذا الزاحف كمهمة لـ ATLAN.
تم الزحف إلى البيانات الكاملة من موقع الويب وتخزينها في ملف واحد
كانت هذه مهمة جديدة وتعلمت كيفية إلغاء مواقع ASP.NET التي تستخدم __VIEWSTATE (استخدم https://blog.scrapinghub.com/2016/04/20/scrapy-tips-from-the-pros-april-2016 -الإصدار كبرنامج تعليمي حول كيفية الزحف إلى مواقع ASP.NET).
أيضًا في نهاية عملية إلغاء البيانات الكاملة، سيتم إجراء طلب POST إلى URL المحدد.
كما تمت إضافة ملف setup.py.
يحتوي الملف المستخرج على الأعمدة التالية:-
- ولاية
- يصرف
- اسم ULB
- جناح
- عدد الطلبات المستلمة
- عدد الطلبات التي لم يتم التحقق منها
- عدد الطلبات التي تم التحقق منها
- عدد الطلبات المعتمدة
- عدد الطلبات المعتمدة التي تحمل رقم Aadhar
- عدد الطلبات المرفوضة
- عدد طلبات التراجع
- عدد الطلبات مغلقة
- رقم صورة المرحاض المبني
- رقم صورة المرحاض التي بدأت
- رقم صورة المراحيض التي تم إنشاؤها من خلال Swachhalaya

الشكوك / الافتراضات

شك=> كيف يمكننا تقديم طلب POST كل 5 دقائق، نظرًا لأن زحف البيانات نفسه يستغرق وقتًا أطول بكثير.

الافتراض=> لإجراء طلب النشر كل 5 دقائق، يمكننا وضع المشروع في ScrapingHub، وجدولته للزحف كل 5 دقائق. تم إنشاء الزاحف بحيث يقوم بتقديم طلب POST عند إكمال الزحف، وسيتم نشر البيانات تلقائيًا.

شك => كم عدد ملفات الإخراج المطلوبة؟ مثل ملف واحد يحتوي على جميع المعلومات. أو الملفات الأربعة التي تحتوي على معلومات لأربعة مستويات مختلفة مثل الولاية والمنطقة وULB ومستوى الجناح.

الافتراضات => لقد قمت بإنشاء ملف CSV واحد فقط والذي تم عرض جدوله في المهمة التي تحتوي على جميع المعلومات. حيث يمكن استخراج جميع المعلومات الأخرى بسهولة من هذا الملف.

كيفية الإعداد

استنساخ المستودع

 git clone https://github.com/sagar-sehgal/SwatchBharaturban_Crawler

اصنع بيئة افتراضية

 virtualenv venv --python=python3

تفعيل Virtualenv

 source venv/bin/activate

تغيير المستودع

 cd SwatchBharaturban_Crawler

تثبيت التبعيات

 pip install -r requirements.txt

قم بتشغيل الزاحف

 scrapy crawl swatchbharaturban_crawler

سيتم تخزين البيانات التي تم الزحف إليها في ملف swatchbharaturban_crawler/data/swatchbharat_data.csv .

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع فئات أخرى
وقت التحديث 2024-12-16
الحجم 50MB
من Github

تطبيقات ذات صلة

catalogonline

2024-12-14
ProEventos App

2024-12-14
MichaelBrandonMorris.KingsportMillSafetyTraining

2024-12-14
itransition hypnofrog

2024-12-14
MVC_CRUD_With_Translator

2024-12-14
marco exceptions core

2024-12-14

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
catalogonline

فئات أخرى

1.0.0
ProEventos App

فئات أخرى

1.0.0
MichaelBrandonMorris.KingsportMillSafetyTraining

فئات أخرى

1.0.0
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
termwind

فئات أخرى

v2.3.0
wp functions

فئات أخرى

1.0.0

أخبار ذات صلة الكل