SerpScrap下載 - SerpScrap原始碼下載

SerpScrap

其他源碼

0.13.0

下載

絲網廢料

SEO python scraper 從主要搜尋引擎結果頁面提取資料。從給定關鍵字的搜尋結果中提取 url、標題、片段、richsnippet 等資料和類型。檢測廣告或自動截圖。您也可以獲得搜尋結果中提供的或您自己提供的網址的文字內容。它對於 SEO 和業務相關的研究任務很有用。

提取這些結果類型

ads_main - 常規搜尋結果中的廣告
image - 圖片搜尋的結果
新聞 - 常規搜尋結果中的新聞預告片
結果 - 標準搜尋結果
購物 - 常規搜尋結果中的購物預告片
影片 - 常規搜尋結果中的影片預告片

對於結果頁的每個結果獲取

領域
秩
豐富的片段
網站連結
片段
標題
類型
網址
可見網址

還可以獲得每個結果頁面的螢幕截圖。您也可以抓取每個結果網址的文字內容。也可以將結果儲存為 CSV 以供將來分析。如果需要，您也可以使用自己的代理程式清單。

資源

請參閱 http://serpscrap.readthedocs.io/en/latest/ 以取得文件。

來源可在 https://github.com/ecoron/SerpScrap 取得

安裝

簡單的方法：

 pip uninstall SerpScrap - y
pip install SerpScrap - - upgrade

更多詳細信息，請參閱文件的安裝 [1] 部分。

用法

您的應用程式中的 SerpScrap

 #!/usr/bin/python3
 # -*- coding: utf-8 -*-
 import pprint
 import serpscrap

 keywords = [ 'example' ]

 config = serpscrap . Config ()
 config . set ( 'scrape_urls' , False )

 scrap = serpscrap . SerpScrap ()
 scrap . init ( config = config . get (), keywords = keywords )
results = scrap . run ()

 for result in results :
     pprint . pprint ( result )

更多詳細資訊請參閱文件的範例 [2] 部分。

為了避免編碼/解碼問題，請在 cli 中開始使用 SerpScrap 之前使用此命令。

chcp 65001
set PYTHONIOENCODING=utf-8

支援的作業系統

SerpScrap 應該可以在安裝了 Python >= 3.4 的 Linux、Windows 和 Mac OS 上運行
SerpScrap 需要 lxml
不適用於 iOS

變化

有關版本之間主要變化的說明

0.13.0

更新的依賴項：chromedriver >= 76.0.3809.68 使用實際驅動程序，sqlalchemy>=1.3.7 解決安全問題和其他小的更新更改
小改動 install_chrome.sh

0.12.0

我建議更新到最新版本的SerpScrap，因為搜尋引擎已經更新了搜尋結果頁面（serp）的標記

更新和清理選擇器以獲取結果
新結果類型視頻

0.11.0

Chrome headless 現在是預設瀏覽器，不建議使用 phantomJS
chromedriver 在第一次執行時安裝（在 Linux 和 Windows 上測試。Mac OS 也應該可以運作）
從 serp url（當然還有給定的 url）中抓取原始文字內容的行為已經改變
立即抓取 serp 結果與內容
csv 輸出格式已更改，現在是製表符分隔並引用

0.10.0

支援無頭鍍鉻，調整刮擦之間的預設時間

0.9.0

新增了結果類型（新聞、購物、圖像）
支援圖片搜尋

0.8.0

刪除了文字處理工具。
要求較少

參考

SerpScrap 使用 Chrome headless [3] 和 lxml [4] 來抓取 serp 結果。對於所取得的 URL 的原始文字內容，它使用 beautifulsoup4 [5] 。 SerpScrap 也支援 PhantomJs [6]（已棄用），它是可編寫腳本的無頭 WebKit，在首次運行時自動安裝（Linux、Windows）。 scrapcore是基於GoogleScraper [7]，一個過時的項目，並且有許多變化和改進。

[1]	http://serpscrap.readthedocs.io/en/latest/install.html

[2]	http://serpscrap.readthedocs.io/en/latest/examples.html

[3]	http://chromedriver.chromium.org/

[4]	https://lxml.de/

[5]	https://www.crummy.com/software/BeautifulSoup/

[6]	https://github.com/ariya/phantomjs

[7]	https://github.com/NikolaiT/GoogleScraper

展開

附加信息

版本 0.13.0
類型其他源碼
更新時間 2024-12-25
大小 64.78KB
來自於 Github

相關應用

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
waymo open dataset

其他源碼

December 2023 Update
SmartTube

其他源碼

24.71 Stable
Sunamu

其他源碼

Release 2.2.0
waymo open dataset

其他源碼

December 2023 Update
wp functions

其他類別

1.0.0
termwind

其他類別

v2.3.0

相關資訊全部