SwatchBharatUrbanCrawler下载 - SwatchBharatUrbanCrawler源代码下载

下载

Swatch Bharat 城市爬行者

这是一个爬虫，可以爬取完整的网站https://sbmurban.org/rrr-centers并提取完整的信息。

该爬虫是作为 ATLAN 的一项任务而构建的。
从网站上抓取完整的数据并将其存储在单个文件中
这是一项新任务，学习了如何废弃使用__VIEWSTATE的 ASP.NET 网站（使用了 https://blog.scrapinghub.com/2016/04/20/scrapy-tips-from-the-pros-april-2016 - 版本作为如何抓取 ASP.NET 网站的教程）。
此外，在完成数据抓取结束时，将向指定的URL发出 POST 请求。
此外，还添加了 setup.py 文件。
提取的文件包含以下列：-
- 状态
- 区
- ULB名称
- 沃德
- 收到的申请数量
- 未验证的申请数量
- 已验证的申请数量
- 获批申请数量
- 获得 Aadhar 编号的申请数量
- 被拒绝的申请数量
- 申请数量回撤
- 已关闭的申请数量
- 已建成厕所数量照片
- 已动工厕所照片数量
- 已建成的厕所数量照片来自 Swachhalaya

ASSUMPTION=>为了每 5 分钟发出一次 post 请求，我们可以将项目放在 ScrapingHub 中，并安排它每 5 分钟抓取一次。爬虫程序在爬行完成后会发出 POST 请求，数据会自动发布。

ASSUMTIONS=>我制作了 1 个 CSV 文件，其表格仅显示在包含所有信息的任务中。因为所有其他信息都可以轻松地从该文件中提取。

 git clone https://github.com/sagar-sehgal/SwatchBharaturban_Crawler

 virtualenv venv --python=python3

 source venv/bin/activate

 cd SwatchBharaturban_Crawler

 pip install -r requirements.txt

 scrapy crawl swatchbharaturban_crawler

爬网数据将存储在swatchbharaturban_crawler/data/swatchbharat_data.csv文件中。

展开

附加信息