SerpScrap
0.13.0
SEO python scraper 从主要搜索引擎结果页面提取数据。从给定关键字的搜索结果中提取 url、标题、片段、richsnippet 等数据和类型。检测广告或自动截图。您还可以获取搜索结果中或您自己提供的网址的文本内容。它对于 SEO 和业务相关的研究任务很有用。
还可以获取每个结果页面的屏幕截图。您还可以抓取每个结果网址的文本内容。还可以将结果保存为 CSV 以供将来分析。如果需要,您还可以使用自己的代理列表。
请参阅 http://serpscrap.readthedocs.io/en/latest/ 以获取文档。
来源可在 https://github.com/ecoron/SerpScrap 获取
简单的方法:
pip uninstall SerpScrap - y
pip install SerpScrap - - upgrade
更多详细信息,请参阅文档的安装 [1] 部分。
您的应用程序中的 SerpScrap
#!/usr/bin/python3
# -*- coding: utf-8 -*-
import pprint
import serpscrap
keywords = [ 'example' ]
config = serpscrap . Config ()
config . set ( 'scrape_urls' , False )
scrap = serpscrap . SerpScrap ()
scrap . init ( config = config . get (), keywords = keywords )
results = scrap . run ()
for result in results :
pprint . pprint ( result )
更多详细信息请参见文档的示例 [2] 部分。
为了避免编码/解码问题,请在 cli 中开始使用 SerpScrap 之前使用此命令。
chcp 65001
set PYTHONIOENCODING=utf-8
有关版本之间主要变化的说明
我建议更新到最新版本的SerpScrap,因为搜索引擎已经更新了搜索结果页面(serp)的标记
SerpScrap 使用 Chrome headless [3] 和 lxml [4] 来抓取 serp 结果。对于获取的 URL 的原始文本内容,它使用 beautifulsoup4 [5] 。 SerpScrap 还支持 PhantomJs [6](已弃用),它是一个可编写脚本的无头 WebKit,在首次运行时自动安装(Linux、Windows)。 scrapcore基于GoogleScraper [7],一个过时的项目,并且有许多变化和改进。
[1] | http://serpscrap.readthedocs.io/en/latest/install.html |
[2] | http://serpscrap.readthedocs.io/en/latest/examples.html |
[3] | http://chromedriver.chromium.org/ |
[4] | https://lxml.de/ |
[5] | https://www.crummy.com/software/BeautifulSoup/ |
[6] | https://github.com/ariya/phantomjs |
[7] | https://github.com/NikolaiT/GoogleScraper |