SwatchBharatUrbanCrawler ดาวน์โหลด - SwatchBharatUrbanCrawler ดาวน์โหลดซอร์สโค้ด

SwatchBharatUrbanCrawler

หมวดหมู่อื่นๆ

1.0.0

ดาวน์โหลด

Swatch Bharat Urban Crawler

นี่คือโปรแกรมรวบรวมข้อมูลที่รวบรวมข้อมูลเว็บไซต์ https://sbmurban.org/rrr-centers ทั้งหมด และแยกข้อมูลทั้งหมด

เกี่ยวกับ

โปรแกรมรวบรวมข้อมูลนี้ถูกสร้างขึ้นเพื่อเป็นงานสำหรับ ATLAN
ข้อมูลทั้งหมดจากเว็บไซต์ได้รับการรวบรวมข้อมูลและจัดเก็บไว้ในไฟล์เดียว
นี่เป็นงานใหม่และได้เรียนรู้วิธีการแยกเว็บไซต์ ASP.NET ที่ใช้ __VIEWSTATE (ใช้ https://blog.scrapinghub.com/2016/04/20/scrapy-tips-from-the-pros-april-2016 -edition เป็นบทช่วยสอนเกี่ยวกับวิธีการรวบรวมข้อมูลเว็บไซต์ ASP.NET)
นอกจากนี้ เมื่อสิ้นสุดการลบข้อมูลโดยสมบูรณ์ คำขอ POST จะถูกส่งไปยัง URL ที่ระบุ
นอกจากนี้ยังมีการเพิ่มไฟล์ setup.py อีกด้วย
ไฟล์ที่แตกออกมาประกอบด้วยคอลัมน์ต่อไปนี้:-
- สถานะ
- เขต
- ชื่อ ULB
- วอร์ด
- จำนวนใบสมัครที่ได้รับ
- จำนวนแอปพลิเคชันที่ไม่ได้รับการตรวจสอบ
- จำนวนแอปพลิเคชันที่ได้รับการยืนยัน
- จำนวนใบสมัครที่ได้รับอนุมัติ
- จำนวนใบสมัครที่ได้รับอนุมัติโดยมี Aadhar No.
- จำนวนใบสมัครที่ถูกปฏิเสธ
- No. of Applications Pullback
- จำนวนใบสมัครที่ปิด
- จำนวนห้องน้ำที่สร้างรูปถ่าย
- จำนวนรูปถ่ายห้องน้ำที่เริ่มใช้
- จำนวนภาพห้องน้ำที่สร้างโดย Swachhalaya

Doubts/Assumptions

DOUBT=> เราจะส่งคำขอ POST ทุก 5 นาทีได้อย่างไร เนื่องจากการรวบรวมข้อมูลเองใช้เวลานานกว่ามาก

ASSUMPTION=> สำหรับการส่งคำขอโพสต์ทุกๆ 5 นาที เราสามารถใส่โปรเจ็กต์ไว้ใน ScrapingHub และกำหนดเวลาให้รวบรวมข้อมูลทุกๆ 5 นาที โปรแกรมรวบรวมข้อมูลถูกสร้างขึ้นเพื่อให้ส่งคำขอ POST เมื่อทำการรวบรวมข้อมูลเสร็จสิ้น และข้อมูลจะถูกโพสต์โดยอัตโนมัติ

สงสัย=> ต้องใช้ไฟล์เอาท์พุตจำนวนเท่าใด? เช่น 1 ไฟล์ที่มีข้อมูลทั้งหมด หรือไฟล์ 4 ไฟล์ที่มีข้อมูลสำหรับ 4 ระดับที่แตกต่างกัน เช่น ระดับรัฐ เขต ULB และวอร์ด

ASSUMTIONS=> ฉันได้สร้างไฟล์ CSV 1 ไฟล์เฉพาะตารางที่แสดงในงานที่มีข้อมูลทั้งหมด เนื่องจากข้อมูลอื่นๆ ทั้งหมดสามารถดึงออกมาจากไฟล์นั้นได้อย่างง่ายดาย

วิธีการตั้งค่า

โคลนพื้นที่เก็บข้อมูล

 git clone https://github.com/sagar-sehgal/SwatchBharaturban_Crawler

สร้างสภาพแวดล้อมเสมือนจริง

 virtualenv venv --python=python3

เปิดใช้งาน virtualenv

 source venv/bin/activate

เปลี่ยนพื้นที่เก็บข้อมูล

 cd SwatchBharaturban_Crawler

ติดตั้งการพึ่งพา

 pip install -r requirements.txt

เรียกใช้โปรแกรมรวบรวมข้อมูล

 scrapy crawl swatchbharaturban_crawler

ข้อมูลที่รวบรวมข้อมูลจะถูกจัดเก็บไว้ในไฟล์ swatchbharaturban_crawler/data/swatchbharat_data.csv

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท หมวดหมู่อื่นๆ
เวลาอัปเดต 2024-12-16
ขนาด 50MB
มาจาก Github

แอปที่เกี่ยวข้อง

catalogonline

2024-12-14
ProEventos App

2024-12-14
MichaelBrandonMorris.KingsportMillSafetyTraining

2024-12-14
itransition hypnofrog

2024-12-14
MVC_CRUD_With_Translator

2024-12-14
marco exceptions core

2024-12-14

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
catalogonline

หมวดหมู่อื่นๆ

1.0.0
ProEventos App

หมวดหมู่อื่นๆ

1.0.0
MichaelBrandonMorris.KingsportMillSafetyTraining

หมวดหมู่อื่นๆ

1.0.0
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
termwind

หมวดหมู่อื่นๆ

v2.3.0
wp functions

หมวดหมู่อื่นๆ

1.0.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด