SwatchBharatUrbanCrawler
1.0.0
這是一個爬蟲,可以爬取完整的網站https://sbmurban.org/rrr-centers並提取完整的資訊。
__VIEWSTATE
的 ASP.NET 網站(使用了 https://blog.scrapinghub.com/2016/04/20/scrapy-tips-from-the-pros-april-2016 - 版本作為如何抓取ASP.NET 網站的教學)。URL
發出 POST 請求。ASSUMPTION=>為了每 5 分鐘發出一次 post 請求,我們可以將專案放在 ScrapingHub 中,並安排它每 5 分鐘抓取一次。爬蟲程式在爬行完成後會發出 POST 請求,資料會自動發布。
ASSUMTIONS=>我製作了 1 個 CSV 文件,其表格僅顯示在包含所有資訊的任務中。因為所有其他資訊都可以輕鬆地從該文件中提取。
git clone https://github.com/sagar-sehgal/SwatchBharaturban_Crawler
virtualenv venv --python=python3
source venv/bin/activate
cd SwatchBharaturban_Crawler
pip install -r requirements.txt
scrapy crawl swatchbharaturban_crawler
爬網資料將儲存在swatchbharaturban_crawler/data/swatchbharat_data.csv
檔案中。