Raspador SEO python para extrair dados das principais páginas de resultados dos mecanismos de pesquisa. Extraia dados como URL, título, snippet, richsnippet e o tipo dos resultados da pesquisa para determinadas palavras-chave. Detecte anúncios ou faça capturas de tela automatizadas. Você também pode buscar conteúdo de texto de URLs fornecidos nos resultados da pesquisa ou por conta própria. É útil para tarefas de pesquisa relacionadas a SEO e negócios.
Obtenha também uma captura de tela de cada página de resultados. Você também pode copiar o conteúdo do texto de cada URL de resultado. Também é possível salvar os resultados como CSV para análises futuras. Se necessário, você também pode usar sua própria lista de proxy.
Consulte http://serpscrap.readthedocs.io/en/latest/ para documentação.
A fonte está disponível em https://github.com/ecoron/SerpScrap
A maneira fácil de fazer:
pip uninstall SerpScrap - y
pip install SerpScrap - - upgrade
Mais detalhes na seção install [1] da documentação.
SerpScrap em suas aplicações
#!/usr/bin/python3
# -*- coding: utf-8 -*-
import pprint
import serpscrap
keywords = [ 'example' ]
config = serpscrap . Config ()
config . set ( 'scrape_urls' , False )
scrap = serpscrap . SerpScrap ()
scrap . init ( config = config . get (), keywords = keywords )
results = scrap . run ()
for result in results :
pprint . pprint ( result )
Mais detalhes na seção de exemplos [2] da documentação.
Para evitar problemas de codificação/decodificação, use este comando antes de começar a usar o SerpScrap em seu cli.
chcp 65001
set PYTHONIOENCODING=utf-8
Notas sobre grandes mudanças entre lançamentos
Recomendo uma atualização para a versão mais recente do SerpScrap, pois o buscador atualizou a marcação das páginas de resultados de busca(serp)
SerpScrap está usando Chrome headless [3] e lxml [4] para extrair resultados de serp. Para conteúdo de texto bruto de URLs buscados, use beautifulsoup4 [5] . SerpScrap também suporta PhantomJs [6], que está obsoleto, um WebKit sem cabeça e programável, que é instalado automaticamente na primeira execução (Linux, Windows). O scrapcore foi baseado no GoogleScraper [7] , um projeto desatualizado, e que possui muitas mudanças e melhorias.
[1] | http://serpscrap.readthedocs.io/en/latest/install.html |
[2] | http://serpscrap.readthedocs.io/en/latest/examples.html |
[3] | http://chromedriver.chromium.org/ |
[4] | https://lxml.de/ |
[5] | https://www.crummy.com/software/BeautifulSoup/ |
[6] | https://github.com/ariya/phantomjs |
[7] | https://github.com/NikolaiT/GoogleScraper |