Scraper SEO de Python para extraer datos de las principales páginas de resultados de los motores de búsqueda. Extraiga datos como URL, título, fragmento, fragmento enriquecido y el tipo de los resultados de búsqueda para palabras clave determinadas. Detecta anuncios o realiza capturas de pantalla automáticas. También puede recuperar el contenido de texto de las URL proporcionadas en los resultados de búsqueda o por su cuenta. Es útil para SEO y tareas de investigación relacionadas con negocios.
Obtenga también una captura de pantalla de cada página de resultados. También puede extraer el contenido de texto de cada URL de resultado. También es posible guardar los resultados como CSV para futuros análisis. Si es necesario, también puede utilizar su propia lista de proxy.
Consulte http://serpscrap.readthedocs.io/en/latest/ para obtener documentación.
La fuente está disponible en https://github.com/ecoron/SerpScrap
La forma fácil de hacerlo:
pip uninstall SerpScrap - y
pip install SerpScrap - - upgrade
Más detalles en la sección de instalación [1] de la documentación.
SerpScrap en tus aplicaciones
#!/usr/bin/python3
# -*- coding: utf-8 -*-
import pprint
import serpscrap
keywords = [ 'example' ]
config = serpscrap . Config ()
config . set ( 'scrape_urls' , False )
scrap = serpscrap . SerpScrap ()
scrap . init ( config = config . get (), keywords = keywords )
results = scrap . run ()
for result in results :
pprint . pprint ( result )
Más detalles en la sección de ejemplos [2] de la documentación.
Para evitar problemas de codificación/decodificación, use este comando antes de comenzar a usar SerpScrap en su cli.
chcp 65001
set PYTHONIOENCODING=utf-8
Notas sobre cambios importantes entre versiones
Recomiendo una actualización a la última versión de SerpScrap, porque el motor de búsqueda ha actualizado el marcado de las páginas de resultados de búsqueda (SERP).
SerpScrap utiliza Chrome headless [3] y lxml [4] para extraer resultados de serp. Para el contenido de texto sin formato de las URL recuperadas, se utiliza beautifulsoup4 [5]. SerpScrap también es compatible con PhantomJs [6], que está en desuso, un WebKit sin cabeza programable, que se instala automáticamente en la primera ejecución (Linux, Windows). El scrapcore se basó en GoogleScraper [7], un proyecto obsoleto, y tiene muchos cambios y mejoras.
[1] | http://serpscrap.readthedocs.io/en/latest/install.html |
[2] | http://serpscrap.readthedocs.io/en/latest/examples.html |
[3] | http://chromedriver.chromium.org/ |
[4] | https://lxml.de/ |
[5] | https://www.crummy.com/software/BeautifulSoup/ |
[6] | https://github.com/ariya/phantomjs |
[7] | https://github.com/NikolaiT/GoogleScraper |