主要な検索エンジンの結果ページからデータを抽出する SEO Python スクレーパー。指定されたキーワードの検索結果から、URL、タイトル、スニペット、リッチスニペット、タイプなどのデータを抽出します。広告を検出したり、自動スクリーンショットを作成したりできます。検索結果で提供された URL または独自の URL のテキスト コンテンツを取得することもできます。 SEO やビジネス関連の調査タスクに役立ちます。
各結果ページのスクリーンショットも取得します。各結果 URL のテキスト コンテンツをスクレイピングすることもできます。今後の分析のために結果を CSV として保存することもできます。必要に応じて、独自のプロキシリストを使用することもできます。
ドキュメントについては、http://serpscrap.readthedocs.io/en/latest/ を参照してください。
ソースは https://github.com/ecoron/SerpScrap で入手できます。
簡単な方法:
pip uninstall SerpScrap - y
pip install SerpScrap - - upgrade
詳細については、ドキュメントのインストール [1] セクションを参照してください。
アプリケーション内の SerpScrap
#!/usr/bin/python3
# -*- coding: utf-8 -*-
import pprint
import serpscrap
keywords = [ 'example' ]
config = serpscrap . Config ()
config . set ( 'scrape_urls' , False )
scrap = serpscrap . SerpScrap ()
scrap . init ( config = config . get (), keywords = keywords )
results = scrap . run ()
for result in results :
pprint . pprint ( result )
詳細については、ドキュメントの例 [2] セクションを参照してください。
エンコード/デコードの問題を回避するには、CLI で SerpScrap の使用を開始する前にこのコマンドを使用します。
chcp 65001
set PYTHONIOENCODING=utf-8
リリース間の大きな変更点に関する注意事項
検索エンジンが検索結果ページ (serp) のマークアップを更新したため、SerpScrap の最新バージョンに更新することをお勧めします。
SerpScrap は Chrome headless [3] と lxml [4] を使用して serp 結果をスクレイピングしています。取得した URL の生のテキスト内容については、 beautifulsoup4 [5] を使用します。 SerpScrap は、非推奨となったスクリプト可能なヘッドレス WebKit である PhantomJs [6] もサポートしており、最初の実行 (Linux、Windows) で自動的にインストールされます。スクラップコアは、古いプロジェクトである GoogleScraper [7] に基づいており、多くの変更と改善が加えられています。
[1] | http://serpscrap.readthedocs.io/en/latest/install.html |
[2] | http://serpscrap.readthedocs.io/en/latest/examples.html |
[3] | http://chromedriver.chromium.org/ |
[4] | https://lxml.de/ |
[5] | https://www.crummy.com/software/BeautifulSoup/ |
[6] | https://github.com/ariya/phantomjs |
[7] | https://github.com/NikolaiT/GoogleScraper |