SwatchBharatUrbanCrawler
1.0.0
这是一个爬虫,可以爬取完整的网站https://sbmurban.org/rrr-centers并提取完整的信息。
__VIEWSTATE
的 ASP.NET 网站(使用了 https://blog.scrapinghub.com/2016/04/20/scrapy-tips-from-the-pros-april-2016 - 版本作为如何抓取 ASP.NET 网站的教程)。URL
发出 POST 请求。ASSUMPTION=>为了每 5 分钟发出一次 post 请求,我们可以将项目放在 ScrapingHub 中,并安排它每 5 分钟抓取一次。爬虫程序在爬行完成后会发出 POST 请求,数据会自动发布。
ASSUMTIONS=>我制作了 1 个 CSV 文件,其表格仅显示在包含所有信息的任务中。因为所有其他信息都可以轻松地从该文件中提取。
git clone https://github.com/sagar-sehgal/SwatchBharaturban_Crawler
virtualenv venv --python=python3
source venv/bin/activate
cd SwatchBharaturban_Crawler
pip install -r requirements.txt
scrapy crawl swatchbharaturban_crawler
爬网数据将存储在swatchbharaturban_crawler/data/swatchbharat_data.csv
文件中。