SwatchBharatUrbanCrawler
1.0.0
Это сканер, который сканирует весь веб-сайт https://sbmurban.org/rrr-centers и извлекает полную информацию.
__VIEWSTATE
(использовалось https://blog.scrapinghub.com/2016/04/20/scrapy-tips-from-the-pros-april-2016). -издание в качестве руководства по сканированию веб-сайтов ASP.NET).URL
будет отправлен POST-запрос.ПРЕДПОЛОЖЕНИЕ => Чтобы отправлять запрос на публикацию каждые 5 минут, мы можем поместить проект в ScrapingHub и запланировать его сканирование каждые 5 минут. Сканер устроен таким образом, что по завершении сканирования он отправляет запрос POST, и данные автоматически публикуются.
ПРЕДПОЛОЖЕНИЯ=> Я создал только 1 CSV-файл, таблица которого была показана в задании и содержала всю информацию. Поскольку всю остальную информацию можно легко извлечь из этого файла.
git clone https://github.com/sagar-sehgal/SwatchBharaturban_Crawler
virtualenv venv --python=python3
source venv/bin/activate
cd SwatchBharaturban_Crawler
pip install -r requirements.txt
scrapy crawl swatchbharaturban_crawler
Просканированные данные будут храниться в файле swatchbharaturban_crawler/data/swatchbharat_data.csv
.