SwatchBharatUrbanCrawler
1.0.0
Este é um rastreador que rastreia o site completo https://sbmurban.org/rrr-centers e extrai as informações completas.
__VIEWSTATE
(usei o https://blog.scrapinghub.com/2016/04/20/scrapy-tips-from-the-pros-april-2016 -edition como um tutorial sobre como rastrear sites ASP.NET).URL
especificado.ASSUNÇÃO=> Para fazer a solicitação de postagem a cada 5 minutos, podemos colocar o projeto no ScrapingHub, e programá-lo para rastrear a cada 5 minutos. O rastreador foi feito de forma que faria uma solicitação POST ao concluir o rastreamento e os dados seriam postados automaticamente.
PRESSUPOSTOS=> Fiz apenas 1 arquivo CSV cuja tabela foi mostrada na tarefa contendo todas as informações. Uma vez que todas as outras informações podem ser facilmente extraídas desse arquivo.
git clone https://github.com/sagar-sehgal/SwatchBharaturban_Crawler
virtualenv venv --python=python3
source venv/bin/activate
cd SwatchBharaturban_Crawler
pip install -r requirements.txt
scrapy crawl swatchbharaturban_crawler
Os dados rastreados seriam armazenados no arquivo swatchbharaturban_crawler/data/swatchbharat_data.csv
.