SwatchBharatUrbanCrawler
1.0.0
これは、完全な Web サイト https://sbmurban.org/rrr-centers をクロールし、完全な情報を抽出するクローラーです。
__VIEWSTATE
を使用する ASP.NET Web サイトをスクラップする方法を学習しました (https://blog.scrapinghub.com/2016/04/20/scrapy-tips-from-the-pros-april-2016 を使用) -ASP.NET Web サイトをクロールする方法に関するチュートリアルとしてのエディション)。URL
に対して POST リクエストが行われます。ASSUMPTION=> 5 分ごとに投稿リクエストを行うには、プロジェクトを ScrapingHub に配置し、5 分ごとにクロールするようにスケジュールできます。クローラーはクローリングが完了するとPOSTリクエストを行い、データが自動的に投稿されるように作られています。
前提 =>すべての情報を含むテーブルがタスクに表示される CSV ファイルのみを 1 つ作成しました。他のすべての情報はそのファイルから簡単に抽出できるためです。
git clone https://github.com/sagar-sehgal/SwatchBharaturban_Crawler
virtualenv venv --python=python3
source venv/bin/activate
cd SwatchBharaturban_Crawler
pip install -r requirements.txt
scrapy crawl swatchbharaturban_crawler
クロールされたデータはswatchbharaturban_crawler/data/swatchbharat_data.csv
ファイルに保存されます。