Scraper SEO Python pour extraire les données des principales pages de résultats des moteurs de recherche. Extrayez des données telles que l'URL, le titre, l'extrait, l'extrait enrichi et le type des résultats de recherche pour des mots-clés donnés. Détectez les publicités ou effectuez des captures d'écran automatisées. Vous pouvez également récupérer le contenu textuel des URL fournies dans les résultats de recherche ou par vous-même. Il est utile pour les tâches de recherche liées au référencement et aux affaires.
Obtenez également une capture d'écran de chaque page de résultats. Vous pouvez également récupérer le contenu textuel de chaque URL de résultat. Il est également possible de sauvegarder les résultats au format CSV pour des analyses futures. Si nécessaire, vous pouvez également utiliser votre propre liste de proxy.
Voir http://serpscrap.readthedocs.io/en/latest/ pour la documentation.
La source est disponible sur https://github.com/ecoron/SerpScrap
La manière la plus simple de procéder :
pip uninstall SerpScrap - y
pip install SerpScrap - - upgrade
Plus de détails dans la section install [1] de la documentation.
SerpScrap dans vos applications
#!/usr/bin/python3
# -*- coding: utf-8 -*-
import pprint
import serpscrap
keywords = [ 'example' ]
config = serpscrap . Config ()
config . set ( 'scrape_urls' , False )
scrap = serpscrap . SerpScrap ()
scrap . init ( config = config . get (), keywords = keywords )
results = scrap . run ()
for result in results :
pprint . pprint ( result )
Plus de détails dans la section exemples [2] de la documentation.
Pour éviter les problèmes d'encodage/décodage, utilisez cette commande avant de commencer à utiliser SerpScrap dans votre cli.
chcp 65001
set PYTHONIOENCODING=utf-8
Notes sur les changements majeurs entre les versions
Je recommande une mise à jour vers la dernière version de SerpScrap, car le moteur de recherche a mis à jour le balisage des pages de résultats de recherche (serp)
SerpScrap utilise Chrome sans tête [3] et lxml [4] pour récupérer les résultats du moteur de recherche. Pour le contenu du texte brut des URL récupérées, il utilise beautifulsoup4 [5] . SerpScrap prend également en charge PhantomJs [6], qui est obsolète, un WebKit sans tête scriptable, qui est installé automatiquement lors de la première exécution (Linux, Windows). Le scrapcore était basé sur GoogleScraper [7] , un projet obsolète, et comporte de nombreux changements et améliorations.
[1] | http://serpscrap.readthedocs.io/en/latest/install.html |
[2] | http://serpscrap.readthedocs.io/en/latest/examples.html |
[3] | http://chromedriver.chromium.org/ |
[4] | https://lxml.de/ |
[5] | https://www.crummy.com/software/BeautifulSoup/ |
[6] | https://github.com/ariya/phantomjs |
[7] | https://github.com/NikolaiT/GoogleScraper |