SinaWeiboScraper下载 - SinaWeiboScraper源代码下载

SinaWeiboScraper

其他源码

1.0.0

下载

Sinaweiboscraper

这是通过关键字搜索的NINA Weibo搜索的网络刮板

为什么要使用Sinaweiboscraper？

有一些新手微博刮板。但是，它们都是通过微博API实施的。 NINA WEIBO限制如果使用API，可以每小时，日和月获得的数据量。这是通过由纯URL编码实现的关键字来搜索NINA Weibo的Web刮板，以便它模拟真正的浏览器，导航到页面并访问数据。它摆脱了极限。微博可能会让您输入验证代码以证明您不是机器，但不是经常。

作者

Xuzhou Yin。个人网站：www.xuzhouyin.com

如何下载

开放终端，然后导航到您要存储程序的目录，然后输入git clone address以下载该程序

依赖

Python 2.7或更高
Firefox浏览器（将来可能会支持其他浏览器）
硒。键入pip install selenium
时间。键入pip install time
BS4。键入pip install bs4
Urllib。键入pip install urllib
DateTime。键入pip install datetime
Unicodecsv。键入pip install unicodecsv

如何使用

在运行程序之前

NINA WEIBO限制了只有用户签名的搜索功能的许可才能使用高级搜索（例如具有特定时间段的搜索）。因此，请注册一个Sina Weibo帐户，并通过Firefox浏览器登录（因此，Firefox将在下次自动签名）。然后找到firefox配置文件的路径（请参阅存储的firefox配置文件）。并更换scraper.py中的第49行中的路径。

询问

query.txt文件用于存储所有查询。请以keyword;eventDate;startDate;endDate;pageofResult添加查询，每行查询。 Sina Weibo不支持搜索中的“滚动到底部以查看更多”功能。相反，它将查询结果分为页面。 Sina将结果页面限制在50。因此，对于每个查询，用户只能访问50页的结果。每个页面都包含20个帖子。因此，对于每次搜索，最多可以获得1000个帖子。但是，可能是查询中少于1000个帖子。因此，请检查包含查询所有结果的最大页面。