这是通过关键字搜索的NINA Weibo搜索的网络刮板
有一些新手微博刮板。但是,它们都是通过微博API实施的。 NINA WEIBO限制如果使用API,可以每小时,日和月获得的数据量。这是通过由纯URL编码实现的关键字来搜索NINA Weibo的Web刮板,以便它模拟真正的浏览器,导航到页面并访问数据。它摆脱了极限。微博可能会让您输入验证代码以证明您不是机器,但不是经常。
Xuzhou Yin。个人网站:www.xuzhouyin.com
开放终端,然后导航到您要存储程序的目录,然后输入git clone address
以下载该程序
pip install selenium
pip install time
pip install bs4
pip install urllib
pip install datetime
pip install unicodecsv
NINA WEIBO限制了只有用户签名的搜索功能的许可才能使用高级搜索(例如具有特定时间段的搜索)。因此,请注册一个Sina Weibo帐户,并通过Firefox浏览器登录(因此,Firefox将在下次自动签名)。然后找到firefox配置文件的路径(请参阅存储的firefox配置文件)。并更换scraper.py
中的第49行中的路径。
query.txt
文件用于存储所有查询。请以keyword;eventDate;startDate;endDate;pageofResult
添加查询,每行查询。 Sina Weibo不支持搜索中的“滚动到底部以查看更多”功能。相反,它将查询结果分为页面。 Sina将结果页面限制在50。因此,对于每个查询,用户只能访问50页的结果。每个页面都包含20个帖子。因此,对于每次搜索,最多可以获得1000个帖子。但是,可能是查询中少于1000个帖子。因此,请检查包含查询所有结果的最大页面。
通过键入python scraper.py
来运行程序
Firefox浏览器将被执行,并自动使用关键字导航到搜索页面。
结果将以CSV格式为output
文件夹。每个查询都会生成一个CSV文件。 Excel在显示汉字时存在问题。因此,通过其他文本编辑器查看更好(如果使用Mac,可以使用数字打开CSV文件)。
现在,此程序仅支持用于我自己的目的的关键字的查询。每个人都可以自由探索新功能。需要注意的是,它不使用SINA微博API,因为微博会限制如果使用API,则限制了查询的数据量。它基本上使用Broswer Cookie登录,搜索URL地址。如果您被阅读以进行贡献,请提交拉动请求。
该项目已根据MIT许可证获得许可 - 有关详细信息,请参见许可证.TXT文件