SwatchBharatUrbanCrawler
1.0.0
이것은 전체 웹사이트 https://sbmurban.org/rrr-centers를 크롤링하고 전체 정보를 추출하는 크롤러입니다.
__VIEWSTATE
사용하는 ASP.NET 웹사이트를 스크랩하는 방법을 배웠습니다(https://blog.scrapinghub.com/2016/04/20/scrapy-tips-from-the-pros-april-2016 사용). -ASP.NET 웹사이트를 크롤링하는 방법에 대한 튜토리얼 버전).URL
에 대해 POST 요청이 이루어집니다.가정=> 5분마다 게시 요청을 하기 위해 프로젝트를 ScrapingHub에 넣고 5분마다 크롤링하도록 예약할 수 있습니다. 크롤러는 크롤링이 완료되면 POST 요청을 하고 데이터가 자동으로 게시되도록 만들어졌습니다.
가정=> 모든 정보가 포함된 작업에 테이블이 표시된 1개의 CSV 파일을 만들었습니다. 다른 모든 정보는 해당 파일에서 쉽게 추출할 수 있기 때문입니다.
git clone https://github.com/sagar-sehgal/SwatchBharaturban_Crawler
virtualenv venv --python=python3
source venv/bin/activate
cd SwatchBharaturban_Crawler
pip install -r requirements.txt
scrapy crawl swatchbharaturban_crawler
크롤링된 데이터는 swatchbharaturban_crawler/data/swatchbharat_data.csv
파일에 저장됩니다.