Download SwatchBharatUrbanCrawler - Download do código-fonte SwatchBharatUrbanCrawler

SwatchBharatUrbanCrawler

Outras categorias

1.0.0

Baixar

Swatch Bharat Urban Crawler

Este é um rastreador que rastreia o site completo https://sbmurban.org/rrr-centers e extrai as informações completas.

Sobre

Este rastreador foi construído como uma tarefa para ATLAN.
Os dados completos do site foram rastreados e armazenados em um único arquivo
Esta foi uma tarefa nova e aprendi como descartar os sites ASP.NET que usam __VIEWSTATE (usei o https://blog.scrapinghub.com/2016/04/20/scrapy-tips-from-the-pros-april-2016 -edition como um tutorial sobre como rastrear sites ASP.NET).
Também ao final da eliminação completa dos dados, uma solicitação POST seria feita para o URL especificado.
Além disso, o arquivo setup.py foi adicionado.
O arquivo extraído contém as seguintes colunas: –
- Estado
- Distrito
- Nome ULB
- Ala
- Nº de inscrições recebidas
- Nº de aplicativos não verificados
- Nº de aplicativos verificados
- Nº de inscrições aprovadas
- Nº de inscrições aprovadas com Aadhar No.
- Nº de inscrições rejeitadas
- Nº de retirada de aplicativos
- Nº de inscrições encerradas
- Nº de foto do banheiro construído
- Nº de foto do banheiro iniciado
- Nº de fotos de banheiros construídos através de Swachhalaya

Dúvidas/Suposições

DÚVIDA=> Como podemos fazer uma solicitação POST a cada 5 minutos, já que o rastreamento dos dados em si leva muito mais tempo.

ASSUNÇÃO=> Para fazer a solicitação de postagem a cada 5 minutos, podemos colocar o projeto no ScrapingHub, e programá-lo para rastrear a cada 5 minutos. O rastreador foi feito de forma que faria uma solicitação POST ao concluir o rastreamento e os dados seriam postados automaticamente.

DÚVIDA=> Quantos arquivos de saída são necessários? Tipo 1 arquivo contendo todas as informações. Ou os 4 Arquivos contendo informações para 4 níveis diferentes como Estadual, Distrital, ULB e Nível de Distrito.

PRESSUPOSTOS=> Fiz apenas 1 arquivo CSV cuja tabela foi mostrada na tarefa contendo todas as informações. Uma vez que todas as outras informações podem ser facilmente extraídas desse arquivo.

Como configurar

Clonar o repositório

 git clone https://github.com/sagar-sehgal/SwatchBharaturban_Crawler

Faça um ambiente virtual

 virtualenv venv --python=python3

Ative o virtualenv

 source venv/bin/activate

Alterar o repositório

 cd SwatchBharaturban_Crawler

Instale as dependências

 pip install -r requirements.txt

Execute o rastreador

 scrapy crawl swatchbharaturban_crawler

Os dados rastreados seriam armazenados no arquivo swatchbharaturban_crawler/data/swatchbharat_data.csv .

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outras categorias
Data da Última Atualização 2024-12-16
tamanho 50MB
Vindo de Github

Aplicativos Relacionados

catalogonline

2024-12-14
ProEventos App

2024-12-14
MichaelBrandonMorris.KingsportMillSafetyTraining

2024-12-14
itransition hypnofrog

2024-12-14
MVC_CRUD_With_Translator

2024-12-14
marco exceptions core

2024-12-14

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
catalogonline

Outras categorias

1.0.0
ProEventos App

Outras categorias

1.0.0
MichaelBrandonMorris.KingsportMillSafetyTraining

Outras categorias

1.0.0
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos