SinaWeiboScraperダウンロードSinaWeiboScraperソースコードのダウンロード

SinaWeiboScraper

その他のソースコード

1.0.0

ダウンロード

Sinaweiboscraper

これは、キーワードによるSina Weibo検索のWebスクレーパーです

なぜSinaweiboscraperを使用するのですか？

Sina Weiboスクレーパーがいくつか存在します。ただし、それらはすべてWeibo APIで実装されています。 Sina Weiboは、APIが使用されている場合、1時間、日、および月ごとに取得できるデータの量を制限します。これは、実際のブラウザをシミュレートし、ページに移動してデータにアクセスできるように、純粋なURLエンコードによって実装されたキーワードによるSina Weibo検索のWebスクレーパーです。制限を取り除きます。 Weiboが確認コードを入力して、自分がマシンではないことを証明できる可能性がありますが、頻繁ではありません。

著者

Xuzhou Yin。個人のウェブサイト：www.xuzhouyin.com

ダウンロード方法

ターミナルを開き、プログラムを保存するディレクトリに移動し、 git clone address入力してプログラムをダウンロードします

依存

Python 2.7以上
Firefoxブラウザ（他のブラウザは将来サポートされる場合があります）
セレン。タイプpip install selenium
時間。 pip install timeを入力します
BS4。タイプpip install bs4
urllib。タイプpip install urllib
DateTime。タイプpip install datetime
Unicodecsv。タイプpip install unicodecsv

使い方

プログラムを実行する前に

Sina Weiboは、ユーザーのみがサインインした検索機能の許可を制限することで、高度な検索（特定の期間の検索など）を使用できます。したがって、Sina Weiboアカウントに登録して、Firefoxブラウザーを介してサインインしてください（次回はFirefoxが自動的に署名します）。次に、Firefoxプロファイルのパスを見つけます（Firefoxプロファイルが保存されている場所を参照）。 scraper.pyの49行目のパスを交換します。

クエリ

query.txtファイルは、すべてのクエリを保存するためのものです。 keyword;eventDate;startDate;endDate;pageofResult 、1行ごとに1つのクエリの形式でクエリを追加してください。 Sina Weiboは、検索中の「より多くの表示」機能を「下にスクロールする」機能をサポートしていません。代わりに、クエリの結果をページに分離します。 SINAは結果のページを50に制限します。したがって、クエリごとに、ユーザーが結果の50ページのみにアクセスできます。また、各ページには20の投稿が含まれています。したがって、検索ごとに最大1000件の投稿を取得できます。ただし、クエリから1000未満の投稿がある場合があります。そのため、クエリのすべての結果を含むページの最大数を確認してください。

プログラムを実行します

python scraper.pyを入力してプログラムを実行します

実行中に何が起こるか

Firefoxブラウザは実行され、キーワードを自動的に検索ページに移動します。

出力

結果は、CSV形式のoutputフォルダーになります。各クエリは1つのCSVファイルを生成します。 Excelには漢字の表示に問題があります。したがって、他のテキストエディターを介して表示する方が優れています（MACを使用している場合は、数字を使用してCSVファイルを開くことができます）。

開発者の方法

今のところ、このプログラムは、自分の目的のためにキーワードを使用したクエリのみをサポートしています。誰もが新機能を自由に探索できます。 WeiboがAPIを使用する場合、データの量をクエリに制限するため、Sina Weibo APIを使用しないことに注意する必要があることが1つあります。基本的に、Broswer Cookieを使用してログイン、URLアドレスを検索します。貢献するために読まれた場合は、プルリクエストを送信してください。