SwatchBharatUrbanCrawlerダウンロード - SwatchBharatUrbanCrawlerソースコードのダウンロード

ダウンロード

スウォッチバーラトアーバンクローラー

これは、完全な Web サイト https://sbmurban.org/rrr-centers をクロールし、完全な情報を抽出するクローラーです。

このクローラーは ATLAN のタスクとして構築されました。
Web サイトからの完全なデータがクロールされ、単一のファイルに保存されました
これは新しいタスクであり、 __VIEWSTATEを使用する ASP.NET Web サイトをスクラップする方法を学習しました (https://blog.scrapinghub.com/2016/04/20/scrapy-tips-from-the-pros-april-2016 を使用) -ASP.NET Web サイトをクロールする方法に関するチュートリアルとしてのエディション)。
また、完全なデータスクレイピングの終了時に、指定されたURLに対して POST リクエストが行われます。
また、setup.py ファイルが追加されました。
抽出されたファイルには次の列が含まれています:-
- 州
- 地区
- ULB名
- 区
- 申請受付数
- 未確認の申請数
- 検証されたアプリケーションの数
- 承認された申請数
- Aadhar No.を持つ承認された申請の数
- 却下された申請数
- 申請プルバック数
- 終了した申請数
- トイレ写真施工数
- トイレ写真開始枚数
- Swachhalaya を通じて建設されたトイレの写真の数

ASSUMPTION=> 5 分ごとに投稿リクエストを行うには、プロジェクトを ScrapingHub に配置し、5 分ごとにクロールするようにスケジュールできます。クローラーはクローリングが完了するとPOSTリクエストを行い、データが自動的に投稿されるように作られています。

DOUBT=>出力ファイルはいくつ必要ですか?すべての情報を含む 1 つのファイルのようなものです。または、州、地区、ULB、区レベルなどの 4 つの異なるレベルの情報を含む 4 つのファイル。

前提 =>すべての情報を含むテーブルがタスクに表示される CSV ファイルのみを 1 つ作成しました。他のすべての情報はそのファイルから簡単に抽出できるためです。

 git clone https://github.com/sagar-sehgal/SwatchBharaturban_Crawler

 virtualenv venv --python=python3

 source venv/bin/activate

 cd SwatchBharaturban_Crawler

 pip install -r requirements.txt

 scrapy crawl swatchbharaturban_crawler

クロールされたデータはswatchbharaturban_crawler/data/swatchbharat_data.csvファイルに保存されます。

拡大する

追加情報