Unduh SwatchBharatUrbanCrawler - Unduh kode sumber SwatchBharatUrbanCrawler

SwatchBharatUrbanCrawler

Kategori lainnya

1.0.0

Unduh

Swatch Perayap Perkotaan Bharat

Ini adalah perayap yang merayapi situs web lengkap https://sbmurban.org/rrr-centers dan mengekstrak informasi lengkapnya.

Tentang

Perayap ini dibuat sebagai tugas untuk ATLAN.
Data lengkap dari situs web dirayapi dan disimpan dalam satu file
Ini adalah tugas baru dan mempelajari cara menghapus situs web ASP.NET yang menggunakan __VIEWSTATE (Menggunakan https://blog.scrapinghub.com/2016/04/20/scrapy-tips-from-the-pros-april-2016 -edisi sebagai tutorial cara Crawling website ASP.NET).
Juga di akhir penghapusan data lengkap, permintaan POST akan dibuat ke URL yang ditentukan.
Juga, file setup.py telah ditambahkan.
File yang diekstraksi berisi kolom berikut: -
- Negara
- Daerah
- Nama ULB
- Bangsal
- Jumlah Lamaran yang Diterima
- Jumlah Permohonan yang Tidak Diverifikasi
- Jumlah Aplikasi yang Diverifikasi
- Jumlah Permohonan yang Disetujui
- Jumlah Permohonan yang Disetujui memiliki Aadhar No.
- Jumlah Lamaran yang Ditolak
- Jumlah Penarikan Aplikasi
- Jumlah Lamaran yang Ditutup
- Jumlah Foto Toilet yang Dibangun
- Jumlah Foto Toilet yang Dimulai
- Jumlah Foto Toilet yang Dibangun melalui Swachhalaya

Keraguan/Asumsi

KERAGUAN=> Bagaimana kita bisa membuat permintaan POST setiap 5 menit, karena perayapan data itu sendiri membutuhkan waktu lebih lama.

ASSUMPTION=> Untuk membuat permintaan posting setiap 5 menit, kita dapat meletakkan proyek di ScrapingHub, dan menjadwalkannya untuk dirayapi setiap 5 menit. Perayap telah dibuat sedemikian rupa sehingga akan membuat permintaan POST untuk menyelesaikan perayapan, dan data akan otomatis diposting.

KERAGUAN=> Berapa banyak file keluaran yang dibutuhkan? Seperti 1 file yang berisi semua informasi. Atau 4 File yang berisi informasi untuk 4 tingkat berbeda seperti Tingkat Negara Bagian, Distrik, ULB dan Kelurahan.

ASSUMTIONS=> Saya hanya membuat 1 file CSV yang tabelnya ditampilkan dalam tugas yang berisi semua informasi. Karena semua informasi lainnya dapat dengan mudah diekstraksi dari file itu.

Bagaimana Pengaturannya

Kloning repositori

 git clone https://github.com/sagar-sehgal/SwatchBharaturban_Crawler

Buat Lingkungan Virtual

 virtualenv venv --python=python3

Aktifkan virtualenv

 source venv/bin/activate

Ubah Repositori

 cd SwatchBharaturban_Crawler

Instal dependensinya

 pip install -r requirements.txt

Jalankan Perayap

 scrapy crawl swatchbharaturban_crawler

Data yang dirayapi akan disimpan dalam file swatchbharaturban_crawler/data/swatchbharat_data.csv .

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kategori lainnya
Waktu Pembaruan 2024-12-16
ukuran 50MB
Berasal dari Github

Aplikasi Terkait

catalogonline

2024-12-14
ProEventos App

2024-12-14
MichaelBrandonMorris.KingsportMillSafetyTraining

2024-12-14
itransition hypnofrog

2024-12-14
MVC_CRUD_With_Translator

2024-12-14
marco exceptions core

2024-12-14

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
catalogonline

Kategori lainnya

1.0.0
ProEventos App

Kategori lainnya

1.0.0
MichaelBrandonMorris.KingsportMillSafetyTraining

Kategori lainnya

1.0.0
waymo open dataset

Kode sumber lainnya

December 2023 Update
termwind

Kategori lainnya

v2.3.0
wp functions

Kategori lainnya

1.0.0

Informasi Terkait Semua