これは、キーワードによるSina Weibo検索のWebスクレーパーです
Sina Weiboスクレーパーがいくつか存在します。ただし、それらはすべてWeibo APIで実装されています。 Sina Weiboは、APIが使用されている場合、1時間、日、および月ごとに取得できるデータの量を制限します。これは、実際のブラウザをシミュレートし、ページに移動してデータにアクセスできるように、純粋なURLエンコードによって実装されたキーワードによるSina Weibo検索のWebスクレーパーです。制限を取り除きます。 Weiboが確認コードを入力して、自分がマシンではないことを証明できる可能性がありますが、頻繁ではありません。
Xuzhou Yin。個人のウェブサイト:www.xuzhouyin.com
ターミナルを開き、プログラムを保存するディレクトリに移動し、 git clone address
入力してプログラムをダウンロードします
pip install selenium
pip install time
を入力しますpip install bs4
pip install urllib
pip install datetime
pip install unicodecsv
Sina Weiboは、ユーザーのみがサインインした検索機能の許可を制限することで、高度な検索(特定の期間の検索など)を使用できます。したがって、Sina Weiboアカウントに登録して、Firefoxブラウザーを介してサインインしてください(次回はFirefoxが自動的に署名します)。次に、Firefoxプロファイルのパスを見つけます(Firefoxプロファイルが保存されている場所を参照)。 scraper.py
の49行目のパスを交換します。
query.txt
ファイルは、すべてのクエリを保存するためのものです。 keyword;eventDate;startDate;endDate;pageofResult
、1行ごとに1つのクエリの形式でクエリを追加してください。 Sina Weiboは、検索中の「より多くの表示」機能を「下にスクロールする」機能をサポートしていません。代わりに、クエリの結果をページに分離します。 SINAは結果のページを50に制限します。したがって、クエリごとに、ユーザーが結果の50ページのみにアクセスできます。また、各ページには20の投稿が含まれています。したがって、検索ごとに最大1000件の投稿を取得できます。ただし、クエリから1000未満の投稿がある場合があります。そのため、クエリのすべての結果を含むページの最大数を確認してください。
python scraper.py
を入力してプログラムを実行します
Firefoxブラウザは実行され、キーワードを自動的に検索ページに移動します。
結果は、CSV形式のoutput
フォルダーになります。各クエリは1つのCSVファイルを生成します。 Excelには漢字の表示に問題があります。したがって、他のテキストエディターを介して表示する方が優れています(MACを使用している場合は、数字を使用してCSVファイルを開くことができます)。
今のところ、このプログラムは、自分の目的のためにキーワードを使用したクエリのみをサポートしています。誰もが新機能を自由に探索できます。 WeiboがAPIを使用する場合、データの量をクエリに制限するため、Sina Weibo APIを使用しないことに注意する必要があることが1つあります。基本的に、Broswer Cookieを使用してログイン、URLアドレスを検索します。貢献するために読まれた場合は、プルリクエストを送信してください。
このプロジェクトはMITライセンスに基づいてライセンスされています - 詳細については、license.txtファイルを参照してください