Загрузка SwatchBharatUrbanCrawler - Загрузка исходного кода SwatchBharatUrbanCrawler

SwatchBharatUrbanCrawler

Другие категории

1.0.0

Скачать

Swatch Bharat Urban Crawler

Это сканер, который сканирует весь веб-сайт https://sbmurban.org/rrr-centers и извлекает полную информацию.

О

Этот краулер был создан по заказу АТЛАН.
Полные данные с веб-сайта были просканированы и сохранены в одном файле.
Это была новая задача: мы научились удалять веб-сайты ASP.NET, использующие __VIEWSTATE (использовалось https://blog.scrapinghub.com/2016/04/20/scrapy-tips-from-the-pros-april-2016). -издание в качестве руководства по сканированию веб-сайтов ASP.NET).
Также в конце полного удаления данных на указанный URL будет отправлен POST-запрос.
Также был добавлен файл setup.py.
Извлеченный файл содержит следующие столбцы:
- Состояние
- Округ
- Имя УЛБ
- Сторожить
- Количество полученных заявок
- Количество непроверенных заявок
- Количество проверенных приложений
- Количество одобренных заявок
- Количество одобренных заявок с номером Aadhar.
- Количество отклоненных заявок
- Количество откатов приложений
- Количество закрытых заявок
- № фото построенного туалета
- Количество начатых фотографий туалета
- Количество фотографий построенного туалета через Swachhalaya

Сомнения/предположения

СОМНЕНИЕ=> Как мы можем делать POST-запрос каждые 5 минут, ведь само сканирование данных занимает гораздо больше времени.

ПРЕДПОЛОЖЕНИЕ => Чтобы отправлять запрос на публикацию каждые 5 минут, мы можем поместить проект в ScrapingHub и запланировать его сканирование каждые 5 минут. Сканер устроен таким образом, что по завершении сканирования он отправляет запрос POST, и данные автоматически публикуются.

СОМНЕНИЕ=> Сколько выходных файлов требуется? Вроде 1 файл, содержащий всю информацию. Или 4 файла, содержащие информацию для 4 различных уровней, таких как уровень штата, округа, ULB и уровня района.

ПРЕДПОЛОЖЕНИЯ=> Я создал только 1 CSV-файл, таблица которого была показана в задании и содержала всю информацию. Поскольку всю остальную информацию можно легко извлечь из этого файла.

Как настроить

Клонировать репозиторий

 git clone https://github.com/sagar-sehgal/SwatchBharaturban_Crawler

Создайте виртуальную среду

 virtualenv venv --python=python3

Активируйте виртуальную среду

 source venv/bin/activate

Изменить репозиторий

 cd SwatchBharaturban_Crawler

Установите зависимости

 pip install -r requirements.txt

Запустить краулер

 scrapy crawl swatchbharaturban_crawler

Просканированные данные будут храниться в файле swatchbharaturban_crawler/data/swatchbharat_data.csv .

Расширять

Дополнительная информация

Версия 1.0.0
Тип Другие категории
Время обновления 2024-12-16
размер 50MB
От Github

Связанные приложения

catalogonline

2024-12-14
ProEventos App

2024-12-14
MichaelBrandonMorris.KingsportMillSafetyTraining

2024-12-14
itransition hypnofrog

2024-12-14
MVC_CRUD_With_Translator

2024-12-14
marco exceptions core

2024-12-14

SwatchBharatUrbanCrawler

Swatch Bharat Urban Crawler

О

Сомнения/предположения

Как настроить

catalogonline

ProEventos App

MichaelBrandonMorris.KingsportMillSafetyTraining

itransition hypnofrog

MVC_CRUD_With_Translator

marco exceptions core

chat.petals.dev

GPT Prompt Templates

GPTyped

catalogonline

ProEventos App

MichaelBrandonMorris.KingsportMillSafetyTraining

waymo open dataset

termwind

wp functions