SwatchBharatUrbanCrawler
1.0.0
Ini adalah perayap yang merayapi situs web lengkap https://sbmurban.org/rrr-centers dan mengekstrak informasi lengkapnya.
__VIEWSTATE
(Menggunakan https://blog.scrapinghub.com/2016/04/20/scrapy-tips-from-the-pros-april-2016 -edisi sebagai tutorial cara Crawling website ASP.NET).URL
yang ditentukan.ASSUMPTION=> Untuk membuat permintaan posting setiap 5 menit, kita dapat meletakkan proyek di ScrapingHub, dan menjadwalkannya untuk dirayapi setiap 5 menit. Perayap telah dibuat sedemikian rupa sehingga akan membuat permintaan POST untuk menyelesaikan perayapan, dan data akan otomatis diposting.
ASSUMTIONS=> Saya hanya membuat 1 file CSV yang tabelnya ditampilkan dalam tugas yang berisi semua informasi. Karena semua informasi lainnya dapat dengan mudah diekstraksi dari file itu.
git clone https://github.com/sagar-sehgal/SwatchBharaturban_Crawler
virtualenv venv --python=python3
source venv/bin/activate
cd SwatchBharaturban_Crawler
pip install -r requirements.txt
scrapy crawl swatchbharaturban_crawler
Data yang dirayapi akan disimpan dalam file swatchbharaturban_crawler/data/swatchbharat_data.csv
.