這是通過關鍵字搜索的NINA Weibo搜索的網絡刮板
有一些新手微博刮板。但是,它們都是通過微博API實施的。 NINA WEIBO限制如果使用API,可以每小時,日和月獲得的數據量。這是通過由純URL編碼實現的關鍵字來搜索NINA Weibo的Web刮板,以便它模擬真正的瀏覽器,導航到頁面並訪問數據。它擺脫了極限。微博可能會讓您輸入驗證代碼以證明您不是機器,但不是經常。
Xuzhou Yin。個人網站:www.xuzhouyin.com
開放終端,然後導航到您要存儲程序的目錄,然後輸入git clone address
以下載該程序
pip install selenium
pip install time
pip install bs4
pip install urllib
pip install datetime
pip install unicodecsv
NINA WEIBO限制了只有用戶簽名的搜索功能的許可才能使用高級搜索(例如具有特定時間段的搜索)。因此,請註冊一個Sina Weibo帳戶,並通過Firefox瀏覽器登錄(因此,Firefox將在下次自動簽名)。然後找到firefox配置文件的路徑(請參閱存儲的firefox配置文件)。並更換scraper.py
中的第49行中的路徑。
query.txt
文件用於存儲所有查詢。請以keyword;eventDate;startDate;endDate;pageofResult
添加查詢,每行查詢。 Sina Weibo不支持搜索中的“滾動到底部以查看更多”功能。相反,它將查詢結果分為頁面。 Sina將結果頁面限制在50。因此,對於每個查詢,用戶只能訪問50頁的結果。每個頁面都包含20個帖子。因此,對於每次搜索,最多可以獲得1000個帖子。但是,可能是查詢中少於1000個帖子。因此,請檢查包含查詢所有結果的最大頁面。
通過鍵入python scraper.py
來運行程序
Firefox瀏覽器將被執行,並自動使用關鍵字導航到搜索頁面。
結果將以CSV格式為output
文件夾。每個查詢都會生成一個CSV文件。 Excel在顯示漢字時存在問題。因此,通過其他文本編輯器查看更好(如果使用Mac,可以使用數字打開CSV文件)。
現在,此程序僅支持用於我自己的目的的關鍵字的查詢。每個人都可以自由探索新功能。需要注意的是,它不使用SINA微博API,因為微博會限制如果使用API,則限制了查詢的數據量。它基本上使用Broswer Cookie登錄,搜索URL地址。如果您被閱讀以進行貢獻,請提交拉動請求。
該項目已根據MIT許可證獲得許可 - 有關詳細信息,請參見許可證.TXT文件