SwatchBharatUrbanCrawler
1.0.0
นี่คือโปรแกรมรวบรวมข้อมูลที่รวบรวมข้อมูลเว็บไซต์ https://sbmurban.org/rrr-centers ทั้งหมด และแยกข้อมูลทั้งหมด
__VIEWSTATE
(ใช้ https://blog.scrapinghub.com/2016/04/20/scrapy-tips-from-the-pros-april-2016 -edition เป็นบทช่วยสอนเกี่ยวกับวิธีการรวบรวมข้อมูลเว็บไซต์ ASP.NET)URL
ที่ระบุASSUMPTION=> สำหรับการส่งคำขอโพสต์ทุกๆ 5 นาที เราสามารถใส่โปรเจ็กต์ไว้ใน ScrapingHub และกำหนดเวลาให้รวบรวมข้อมูลทุกๆ 5 นาที โปรแกรมรวบรวมข้อมูลถูกสร้างขึ้นเพื่อให้ส่งคำขอ POST เมื่อทำการรวบรวมข้อมูลเสร็จสิ้น และข้อมูลจะถูกโพสต์โดยอัตโนมัติ
ASSUMTIONS=> ฉันได้สร้างไฟล์ CSV 1 ไฟล์เฉพาะตารางที่แสดงในงานที่มีข้อมูลทั้งหมด เนื่องจากข้อมูลอื่นๆ ทั้งหมดสามารถดึงออกมาจากไฟล์นั้นได้อย่างง่ายดาย
git clone https://github.com/sagar-sehgal/SwatchBharaturban_Crawler
virtualenv venv --python=python3
source venv/bin/activate
cd SwatchBharaturban_Crawler
pip install -r requirements.txt
scrapy crawl swatchbharaturban_crawler
ข้อมูลที่รวบรวมข้อมูลจะถูกจัดเก็บไว้ในไฟล์ swatchbharaturban_crawler/data/swatchbharat_data.csv