SEO-скребок Python для извлечения данных из основных страниц результатов поисковых систем. Извлекайте данные, такие как URL-адрес, заголовок, фрагмент, расширенный фрагмент и тип, из результатов поиска по заданным ключевым словам. Обнаруживайте рекламу или делайте автоматические снимки экрана. Вы также можете получить текстовое содержимое URL-адресов, предоставленных в результатах поиска или собственных. Это полезно для исследовательских задач, связанных с SEO и бизнесом.
Также получите скриншот каждой страницы результатов. Вы также можете очистить текстовое содержимое каждого URL-адреса результата. Также возможно сохранить результаты в формате CSV для будущей аналитики. При необходимости вы также можете использовать свой собственный список прокси.
См. документацию по адресу http://serpscrap.readthedocs.io/en/latest/.
Исходный код доступен по адресу https://github.com/ecoron/SerpScrap.
Простой способ сделать:
pip uninstall SerpScrap - y
pip install SerpScrap - - upgrade
Более подробную информацию можно найти в разделе установки [1] документации.
SerpScrap в ваших приложениях
#!/usr/bin/python3
# -*- coding: utf-8 -*-
import pprint
import serpscrap
keywords = [ 'example' ]
config = serpscrap . Config ()
config . set ( 'scrape_urls' , False )
scrap = serpscrap . SerpScrap ()
scrap . init ( config = config . get (), keywords = keywords )
results = scrap . run ()
for result in results :
pprint . pprint ( result )
Более подробно в разделе примеров [2] документации.
Чтобы избежать проблем с кодированием/декодированием, используйте эту команду, прежде чем начать использовать SerpScrap в своем командном интерфейсе.
chcp 65001
set PYTHONIOENCODING=utf-8
Примечания об основных изменениях между выпусками
Рекомендую обновить SerpScrap до последней версии, так как поисковая система обновила разметку страниц результатов поиска(serp)
SerpScrap использует Chrome headless [3] и lxml [4] для очистки результатов поисковой выдачи. Для необработанного текстового содержимого полученных URL-адресов используется beautifulsoup4 [5] . SerpScrap также поддерживает PhantomJs [6], который устарел, безголовый WebKit с поддержкой сценариев, который устанавливается автоматически при первом запуске (Linux, Windows). Scrapcore был основан на устаревшем проекте GoogleScraper [7] и имеет множество изменений и улучшений.
[1] | http://serpscrap.readthedocs.io/en/latest/install.html |
[2] | http://serpscrap.readthedocs.io/en/latest/examples.html |
[3] | http://chromedriver.chromium.org/ |
[4] | https://lxml.de/ |
[5] | https://www.crummy.com/software/BeautifulSoup/ |
[6] | https://github.com/ariya/phantomjs |
[7] | https://github.com/NikolaiT/GoogleScraper |