Descargar SwatchBharatUrbanCrawler - SwatchBharatUrbanCrawler Descarga del código fuente

SwatchBharatUrbanCrawler

Otras categorias

1.0.0

Descargar

Swatch Bharat Urban Crawler

Este es un rastreador que rastrea el sitio web completo https://sbmurban.org/rrr-centers y extrae la información completa.

Acerca de

Este rastreador fue creado como una tarea para ATLAN.
Los datos completos del sitio web fueron rastreados y almacenados en un solo archivo.
Esta fue una tarea nueva y aprendí a eliminar los sitios web ASP.NET que usan __VIEWSTATE (usé https://blog.scrapinghub.com/2016/04/20/scrapy-tips-from-the-pros-april-2016 -edición como tutorial sobre cómo rastrear sitios web ASP.NET).
Además, al final del desguace completo de datos, se realizará una solicitud POST a la URL especificada.
Además, se ha agregado el archivo setup.py.
El archivo extraído contiene las siguientes columnas: -
- Estado
- Distrito
- Nombre ULB
- Pabellón
- Número de solicitudes recibidas
- Número de solicitudes no verificadas
- No. de aplicaciones verificadas
- Número de solicitudes aprobadas
- No. de solicitudes aprobadas que tienen Aadhar No.
- No. de solicitudes rechazadas
- Número de aplicaciones retiradas
- No. de solicitudes cerradas
- No. de fotos de baños construidos
- No. de fotos de baño iniciadas
- Número de fotografías de baños construidos a través de Swachhalaya

Dudas/suposiciones

DUDA=> ¿Cómo podemos realizar una solicitud POST cada 5 minutos, ya que el rastreo de datos en sí lleva mucho más tiempo?

SUPUESTO => Para realizar la solicitud de publicación cada 5 minutos, podemos colocar el proyecto en ScrapingHub y programarlo para que se rastree cada 5 minutos. El rastreador se creó de tal manera que realizaría una solicitud POST al completar el rastreo y los datos se publicarían automáticamente.

DUDA=> ¿Cuántos archivos de salida se requieren? Como 1 archivo que contiene toda la información. O los 4 archivos que contienen información para 4 niveles diferentes, como estado, distrito, ULB y nivel de distrito.

SUPUESTOS => He creado solo 1 archivo CSV cuya tabla se mostró en la tarea que contiene toda la información. Dado que toda la demás información se puede extraer fácilmente de ese archivo.

Cómo configurar

Clonar el repositorio

 git clone https://github.com/sagar-sehgal/SwatchBharaturban_Crawler

Crear un entorno virtual

 virtualenv venv --python=python3

Activar el entorno virtual

 source venv/bin/activate

Cambiar el repositorio

 cd SwatchBharaturban_Crawler

Instalar las dependencias

 pip install -r requirements.txt

Ejecute el rastreador

 scrapy crawl swatchbharaturban_crawler

Los datos rastreados se almacenarían en el archivo swatchbharaturban_crawler/data/swatchbharat_data.csv .

Expandir

Información adicional

Versión 1.0.0
Tipo Otras categorias
Fecha de actualización 2024-12-16
tamaño 50MB
Proviene de Github

Aplicaciones relacionadas

catalogonline

2024-12-14
ProEventos App

2024-12-14
MichaelBrandonMorris.KingsportMillSafetyTraining

2024-12-14
itransition hypnofrog

2024-12-14
MVC_CRUD_With_Translator

2024-12-14
marco exceptions core

2024-12-14

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
catalogonline

Otras categorias

1.0.0
ProEventos App

Otras categorias

1.0.0
MichaelBrandonMorris.KingsportMillSafetyTraining

Otras categorias

1.0.0
waymo open dataset

Otro código fuente

December 2023 Update
termwind

Otras categorias

v2.3.0
wp functions

Otras categorias

1.0.0

Información relacionada Todo