SEO-Python-Scraper zum Extrahieren von Daten aus den Ergebnisseiten wichtiger Suchmaschinen. Extrahieren Sie Daten wie URL, Titel, Snippet, RichSnippet und den Typ aus Suchergebnissen für bestimmte Schlüsselwörter. Erkennen Sie Werbung oder erstellen Sie automatisierte Screenshots. Sie können auch Textinhalte von URLs abrufen, die in Suchergebnissen oder von Ihren eigenen URLs bereitgestellt werden. Es ist nützlich für SEO- und geschäftsbezogene Forschungsaufgaben.
Erhalten Sie außerdem einen Screenshot jeder Ergebnisseite. Sie können auch den Textinhalt jeder Ergebnis-URL scrapen. Es ist auch möglich, die Ergebnisse für zukünftige Analysen als CSV zu speichern. Bei Bedarf können Sie auch Ihre eigene Proxyliste verwenden.
Dokumentation finden Sie unter http://serpscrap.readthedocs.io/en/latest/.
Die Quelle ist verfügbar unter https://github.com/ecoron/SerpScrap
Der einfache Weg:
pip uninstall SerpScrap - y
pip install SerpScrap - - upgrade
Weitere Details finden Sie im Abschnitt „Installation“ [1] der Dokumentation.
SerpScrap in Ihren Anwendungen
#!/usr/bin/python3
# -*- coding: utf-8 -*-
import pprint
import serpscrap
keywords = [ 'example' ]
config = serpscrap . Config ()
config . set ( 'scrape_urls' , False )
scrap = serpscrap . SerpScrap ()
scrap . init ( config = config . get (), keywords = keywords )
results = scrap . run ()
for result in results :
pprint . pprint ( result )
Weitere Einzelheiten finden Sie im Abschnitt Beispiele [2] der Dokumentation.
Um Kodierungs-/Dekodierungsprobleme zu vermeiden, verwenden Sie diesen Befehl, bevor Sie SerpScrap in Ihrer CLI verwenden.
chcp 65001
set PYTHONIOENCODING=utf-8
Hinweise zu wesentlichen Änderungen zwischen den Veröffentlichungen
Ich empfehle ein Update auf die neueste Version von SerpScrap, da die Suchmaschine das Markup der Suchergebnisseiten (serp) aktualisiert hat.
SerpScrap verwendet Chrome Headless [3] und lxml [4], um Serp-Ergebnisse zu scrapen. Für Rohtextinhalte abgerufener URLs wird beautifulsoup4 [5] verwendet. SerpScrap unterstützt auch das veraltete PhantomJs [6], ein skriptfähiges Headless-WebKit, das beim ersten Start automatisch installiert wird (Linux, Windows). Der Scrapcore basierte auf GoogleScraper [7], einem veralteten Projekt, und weist viele Änderungen und Verbesserungen auf.
[1] | http://serpscrap.readthedocs.io/en/latest/install.html |
[2] | http://serpscrap.readthedocs.io/en/latest/examples.html |
[3] | http://chromedriver.chromium.org/ |
[4] | https://lxml.de/ |
[5] | https://www.crummy.com/software/BeautifulSoup/ |
[6] | https://github.com/ariya/phantomjs |
[7] | https://github.com/NikolaiT/GoogleScraper |