SwatchBharatUrbanCrawler 다운로드 - SwatchBharatUrbanCrawler 소스 코드 다운로드

다운로드

스와치 바라트 어반 크롤러

이것은 전체 웹사이트 https://sbmurban.org/rrr-centers를 크롤링하고 전체 정보를 추출하는 크롤러입니다.

이 크롤러는 ATLAN용 작업으로 구축되었습니다.
웹사이트의 전체 데이터가 크롤링되어 단일 파일에 저장되었습니다.
이것은 새로운 작업이었으며 __VIEWSTATE 사용하는 ASP.NET 웹사이트를 스크랩하는 방법을 배웠습니다(https://blog.scrapinghub.com/2016/04/20/scrapy-tips-from-the-pros-april-2016 사용). -ASP.NET 웹사이트를 크롤링하는 방법에 대한 튜토리얼 버전).
또한 완전한 데이터 폐기가 끝나면 지정된 URL 에 대해 POST 요청이 이루어집니다.
또한 setup.py 파일이 추가되었습니다.
추출된 파일에는 다음 열이 포함되어 있습니다.
- 상태
- 구역
- ULB 이름
- 구
- 접수된 지원서 수
- 확인되지 않은 애플리케이션 수
- 확인된 애플리케이션 수
- 승인된 신청서 수
- Aadhar 번호가 있는 승인된 신청서 수
- 거부된 신청 수
- 애플리케이션 풀백 수
- 마감된 지원서 수
- 건설된 화장실 사진 수
- 화장실 시작 사진 수
- Swachhalaya를 통해 건설된 화장실 사진 수

가정=> 5분마다 게시 요청을 하기 위해 프로젝트를 ScrapingHub에 넣고 5분마다 크롤링하도록 예약할 수 있습니다. 크롤러는 크롤링이 완료되면 POST 요청을 하고 데이터가 자동으로 게시되도록 만들어졌습니다.

의심=> 몇 개의 출력 파일이 필요합니까? 모든 정보가 포함된 파일 1개와 같습니다. 또는 주, 지역, ULB 및 병동 수준과 같은 4가지 수준에 대한 정보가 포함된 4개 파일입니다.

가정=> 모든 정보가 포함된 작업에 테이블이 표시된 1개의 CSV 파일을 만들었습니다. 다른 모든 정보는 해당 파일에서 쉽게 추출할 수 있기 때문입니다.

 git clone https://github.com/sagar-sehgal/SwatchBharaturban_Crawler

 virtualenv venv --python=python3

 source venv/bin/activate

 cd SwatchBharaturban_Crawler

 pip install -r requirements.txt

 scrapy crawl swatchbharaturban_crawler

크롤링된 데이터는 swatchbharaturban_crawler/data/swatchbharat_data.csv 파일에 저장됩니다.

확장하다

추가 정보