SwatchBharatUrbanCrawler
1.0.0
Este es un rastreador que rastrea el sitio web completo https://sbmurban.org/rrr-centers y extrae la información completa.
__VIEWSTATE
(usé https://blog.scrapinghub.com/2016/04/20/scrapy-tips-from-the-pros-april-2016 -edición como tutorial sobre cómo rastrear sitios web ASP.NET).URL
especificada.SUPUESTO => Para realizar la solicitud de publicación cada 5 minutos, podemos colocar el proyecto en ScrapingHub y programarlo para que se rastree cada 5 minutos. El rastreador se creó de tal manera que realizaría una solicitud POST al completar el rastreo y los datos se publicarían automáticamente.
SUPUESTOS => He creado solo 1 archivo CSV cuya tabla se mostró en la tarea que contiene toda la información. Dado que toda la demás información se puede extraer fácilmente de ese archivo.
git clone https://github.com/sagar-sehgal/SwatchBharaturban_Crawler
virtualenv venv --python=python3
source venv/bin/activate
cd SwatchBharaturban_Crawler
pip install -r requirements.txt
scrapy crawl swatchbharaturban_crawler
Los datos rastreados se almacenarían en el archivo swatchbharaturban_crawler/data/swatchbharat_data.csv
.