SerpScrap
0.13.0
SEO python scraper 從主要搜尋引擎結果頁面提取資料。從給定關鍵字的搜尋結果中提取 url、標題、片段、richsnippet 等資料和類型。檢測廣告或自動截圖。您也可以獲得搜尋結果中提供的或您自己提供的網址的文字內容。它對於 SEO 和業務相關的研究任務很有用。
還可以獲得每個結果頁面的螢幕截圖。您也可以抓取每個結果網址的文字內容。也可以將結果儲存為 CSV 以供將來分析。如果需要,您也可以使用自己的代理程式清單。
請參閱 http://serpscrap.readthedocs.io/en/latest/ 以取得文件。
來源可在 https://github.com/ecoron/SerpScrap 取得
簡單的方法:
pip uninstall SerpScrap - y
pip install SerpScrap - - upgrade
更多詳細信息,請參閱文件的安裝 [1] 部分。
您的應用程式中的 SerpScrap
#!/usr/bin/python3
# -*- coding: utf-8 -*-
import pprint
import serpscrap
keywords = [ 'example' ]
config = serpscrap . Config ()
config . set ( 'scrape_urls' , False )
scrap = serpscrap . SerpScrap ()
scrap . init ( config = config . get (), keywords = keywords )
results = scrap . run ()
for result in results :
pprint . pprint ( result )
更多詳細資訊請參閱文件的範例 [2] 部分。
為了避免編碼/解碼問題,請在 cli 中開始使用 SerpScrap 之前使用此命令。
chcp 65001
set PYTHONIOENCODING=utf-8
有關版本之間主要變化的說明
我建議更新到最新版本的SerpScrap,因為搜尋引擎已經更新了搜尋結果頁面(serp)的標記
SerpScrap 使用 Chrome headless [3] 和 lxml [4] 來抓取 serp 結果。對於所取得的 URL 的原始文字內容,它使用 beautifulsoup4 [5] 。 SerpScrap 也支援 PhantomJs [6](已棄用),它是可編寫腳本的無頭 WebKit,在首次運行時自動安裝(Linux、Windows)。 scrapcore是基於GoogleScraper [7],一個過時的項目,並且有許多變化和改進。
[1] | http://serpscrap.readthedocs.io/en/latest/install.html |
[2] | http://serpscrap.readthedocs.io/en/latest/examples.html |
[3] | http://chromedriver.chromium.org/ |
[4] | https://lxml.de/ |
[5] | https://www.crummy.com/software/BeautifulSoup/ |
[6] | https://github.com/ariya/phantomjs |
[7] | https://github.com/NikolaiT/GoogleScraper |