주요 검색 엔진 결과 페이지에서 데이터를 추출하는 SEO Python 스크레이퍼입니다. 특정 키워드에 대한 검색결과에서 URL, 제목, 스니펫, 리치스니펫 및 유형과 같은 데이터를 추출합니다. 광고를 감지하거나 자동화된 스크린샷을 만드세요. 검색결과 또는 직접 제공한 URL의 텍스트 콘텐츠를 가져올 수도 있습니다. SEO 및 비즈니스 관련 연구 작업에 유용합니다.
또한 각 결과 페이지의 스크린샷을 받으세요. 각 결과 URL의 텍스트 내용을 긁을 수도 있습니다. 향후 분석을 위해 결과를 CSV로 저장할 수도 있습니다. 필요한 경우 자체 프록시 목록을 사용할 수도 있습니다.
문서는 http://serpscrap.readthedocs.io/en/latest/를 참조하세요.
소스는 https://github.com/ecoron/SerpScrap에서 확인할 수 있습니다.
쉬운 방법은 다음과 같습니다.
pip uninstall SerpScrap - y
pip install SerpScrap - - upgrade
자세한 내용은 설명서의 설치 [1] 섹션을 참조하세요.
애플리케이션의 SerpScrap
#!/usr/bin/python3
# -*- coding: utf-8 -*-
import pprint
import serpscrap
keywords = [ 'example' ]
config = serpscrap . Config ()
config . set ( 'scrape_urls' , False )
scrap = serpscrap . SerpScrap ()
scrap . init ( config = config . get (), keywords = keywords )
results = scrap . run ()
for result in results :
pprint . pprint ( result )
자세한 내용은 설명서의 예제 [2] 섹션을 참조하세요.
인코딩/디코딩 문제를 방지하려면 cli에서 SerpScrap 사용을 시작하기 전에 이 명령을 사용하십시오.
chcp 65001
set PYTHONIOENCODING=utf-8
릴리스 간의 주요 변경 사항에 대한 참고 사항
검색 엔진이 검색 결과 페이지(serp)의 마크업을 업데이트했기 때문에 최신 버전의 SerpScrap으로 업데이트할 것을 권장합니다.
SerpScrap은 Chrome 헤드리스[3] 및 lxml[4]을 사용하여 serp 결과를 스크랩합니다. 가져온 URL의 원시 텍스트 콘텐츠의 경우 beautifulsoup4 [5] 를 사용합니다. SerpScrap은 또한 처음 실행(Linux, Windows) 시 자동으로 설치되는 스크립팅 가능한 헤드리스 WebKit인 PhantomJs [6]를 지원합니다. 스크랩코어는 오래된 프로젝트인 GoogleScraper [7]를 기반으로 했으며 많은 변경 사항과 개선 사항이 있습니다.
[1] | http://serpscrap.readthedocs.io/en/latest/install.html |
[2] | http://serpscrap.readthedocs.io/en/latest/examples.html |
[3] | http://chromedriver.chromium.org/ |
[4] | https://lxml.de/ |
[5] | https://www.crummy.com/software/BeautifulSoup/ |
[6] | https://github.com/ariya/phantomjs |
[7] | https://github.com/NikolaiT/GoogleScraper |