Swatch Bharat Urban Crawler
Il s'agit d'un robot qui explore le site Web complet https://sbmurban.org/rrr-centers et extrait les informations complètes.
À propos
- Ce robot a été conçu comme une tâche pour ATLAN.
- Les données complètes du site Web ont été explorées et stockées dans un seul fichier
- Il s'agissait d'une nouvelle tâche et j'ai appris à supprimer les sites Web ASP.NET qui utilisent
__VIEWSTATE
(utilisé le https://blog.scrapinghub.com/2016/04/20/scrapy-tips-from-the-pros-april-2016 -edition comme tutoriel sur la façon d'explorer les sites Web ASP.NET). - Également à la fin de la suppression complète des données, une requête POST serait adressée à l'
URL
spécifiée. - De plus, le fichier setup.py a été ajouté.
- Le fichier extrait contient les colonnes suivantes : -
- État
- District
- Nom de l'ULB
- Salle
- Nombre de candidatures reçues
- Nombre de candidatures non vérifiées
- Nombre de candidatures vérifiées
- Nombre de demandes approuvées
- Nombre de demandes approuvées ayant le numéro Aadhar.
- Nombre de demandes rejetées
- Nombre de demandes retirées
- Nombre de candidatures clôturées
- Nombre de toilettes construites Photo
- Nombre de toilettes commencées Photo
- Nombre de photos de toilettes construites via Swachhalaya
Doutes/hypothèses
- DOUBT=> Comment pouvons-nous faire une requête POST toutes les 5 minutes, puisque l'exploration des données elle-même prend beaucoup plus de temps.
ASSUMPTION=> Pour faire la demande de publication toutes les 5 minutes, nous pouvons mettre le projet dans le ScrapingHub et planifier son exploration toutes les 5 minutes. Le robot d'exploration a été conçu de telle sorte qu'il fasse une requête POST à la fin de l'exploration et que les données soient automatiquement publiées.
- DOUTE=> Combien de fichiers de sortie sont requis ? Comme 1 fichier contenant toutes les informations. Ou les 4 Fichiers contenant des informations pour 4 niveaux différents comme l'Etat, le District, l'ULB et le Ward Level.
ASSUMTIONS=> J'ai réalisé 1 seul fichier CSV dont le tableau était affiché dans la tâche contenant toutes les informations. Puisque toutes les autres informations peuvent être facilement extraites de ce fichier.
Comment configurer
- Cloner le référentiel
git clone https://github.com/sagar-sehgal/SwatchBharaturban_Crawler
- Créer un environnement virtuel
virtualenv venv --python=python3
- Activer le virtualenv
- Changer le référentiel
cd SwatchBharaturban_Crawler
- Installer les dépendances
pip install -r requirements.txt
- Exécutez le robot d'exploration
scrapy crawl swatchbharaturban_crawler
Les données analysées seraient stockées dans le fichier swatchbharaturban_crawler/data/swatchbharat_data.csv
.