SwatchBharatUrbanCrawler下載 - SwatchBharatUrbanCrawler原始碼下載

下載

Swatch Bharat 城市爬蟲

這是一個爬蟲，可以爬取完整的網站https://sbmurban.org/rrr-centers並提取完整的資訊。

該爬蟲是作為 ATLAN 的一項任務而建造的。
從網站上抓取完整的資料並將其儲存在單一文件中
這是一項新任務，學習如何廢棄使用__VIEWSTATE的 ASP.NET 網站（使用了 https://blog.scrapinghub.com/2016/04/20/scrapy-tips-from-the-pros-april-2016 - 版本作為如何抓取ASP.NET 網站的教學）。
此外，在完成資料擷取結束時，將向指定的URL發出 POST 請求。
此外，還新增了 setup.py 檔案。
提取的文件包含以下列：-
- 狀態
- 區
- ULB名稱
- 沃德
- 收到的申請數量
- 未驗證的申請數量
- 已驗證的申請數量
- 核准申請數量
- 取得 Aadhar 編號的申請數量
- 被拒絕的申請數量
- 申請數量回撤
- 已關閉的申請數量
- 已建成廁所數量照片
- 已動工廁所照片數量
- 已建成的廁所數量照片來自 Swachhalaya

ASSUMPTION=>為了每 5 分鐘發出一次 post 請求，我們可以將專案放在 ScrapingHub 中，並安排它每 5 分鐘抓取一次。爬蟲程式在爬行完成後會發出 POST 請求，資料會自動發布。

ASSUMTIONS=>我製作了 1 個 CSV 文件，其表格僅顯示在包含所有資訊的任務中。因為所有其他資訊都可以輕鬆地從該文件中提取。

 git clone https://github.com/sagar-sehgal/SwatchBharaturban_Crawler

 virtualenv venv --python=python3

 source venv/bin/activate

 cd SwatchBharaturban_Crawler

 pip install -r requirements.txt

 scrapy crawl swatchbharaturban_crawler

爬網資料將儲存在swatchbharaturban_crawler/data/swatchbharat_data.csv檔案中。

展開

附加信息

相關應用

爲您推薦

相關資訊全部