SinaWeiboScraper下載 - SinaWeiboScraper源代碼下載

SinaWeiboScraper

其他源碼

1.0.0

下載

Sinaweiboscraper

這是通過關鍵字搜索的NINA Weibo搜索的網絡刮板

為什麼要使用Sinaweiboscraper？

有一些新手微博刮板。但是，它們都是通過微博API實施的。 NINA WEIBO限制如果使用API，可以每小時，日和月獲得的數據量。這是通過由純URL編碼實現的關鍵字來搜索NINA Weibo的Web刮板，以便它模擬真正的瀏覽器，導航到頁面並訪問數據。它擺脫了極限。微博可能會讓您輸入驗證代碼以證明您不是機器，但不是經常。

作者

Xuzhou Yin。個人網站：www.xuzhouyin.com

如何下載

開放終端，然後導航到您要存儲程序的目錄，然後輸入git clone address以下載該程序

依賴

Python 2.7或更高
Firefox瀏覽器（將來可能會支持其他瀏覽器）
硒。鍵入pip install selenium
時間。鍵入pip install time
BS4。鍵入pip install bs4
Urllib。鍵入pip install urllib
DateTime。鍵入pip install datetime
Unicodecsv。鍵入pip install unicodecsv

如何使用

在運行程序之前

NINA WEIBO限制了只有用戶簽名的搜索功能的許可才能使用高級搜索（例如具有特定時間段的搜索）。因此，請註冊一個Sina Weibo帳戶，並通過Firefox瀏覽器登錄（因此，Firefox將在下次自動簽名）。然後找到firefox配置文件的路徑（請參閱存儲的firefox配置文件）。並更換scraper.py中的第49行中的路徑。

詢問

query.txt文件用於存儲所有查詢。請以keyword;eventDate;startDate;endDate;pageofResult添加查詢，每行查詢。 Sina Weibo不支持搜索中的“滾動到底部以查看更多”功能。相反，它將查詢結果分為頁面。 Sina將結果頁面限制在50。因此，對於每個查詢，用戶只能訪問50頁的結果。每個頁面都包含20個帖子。因此，對於每次搜索，最多可以獲得1000個帖子。但是，可能是查詢中少於1000個帖子。因此，請檢查包含查詢所有結果的最大頁面。