Scraper python SEO untuk mengekstrak data dari halaman hasil mesin pencari utama. Ekstrak data seperti url, judul, cuplikan, cuplikan kaya, dan jenis dari hasil pencarian untuk kata kunci tertentu. Deteksi Iklan atau buat tangkapan layar otomatis. Anda juga dapat mengambil konten teks dari url yang disediakan dalam hasil pencarian atau milik Anda sendiri. Ini berguna untuk tugas penelitian terkait SEO dan bisnis.
Dapatkan juga tangkapan layar dari setiap halaman hasil. Anda juga dapat mengikis konten teks dari setiap url hasil. Hasil juga dapat disimpan sebagai CSV untuk analisis di masa mendatang. Jika diperlukan, Anda juga dapat menggunakan daftar proxy Anda sendiri.
Lihat http://serpscrap.readthedocs.io/en/latest/ untuk dokumentasi.
Sumber tersedia di https://github.com/ecoron/SerpScrap
Cara mudahnya:
pip uninstall SerpScrap - y
pip install SerpScrap - - upgrade
Detail lebih lanjut di bagian instal [1] pada dokumentasi.
SerpScrap di aplikasi Anda
#!/usr/bin/python3
# -*- coding: utf-8 -*-
import pprint
import serpscrap
keywords = [ 'example' ]
config = serpscrap . Config ()
config . set ( 'scrape_urls' , False )
scrap = serpscrap . SerpScrap ()
scrap . init ( config = config . get (), keywords = keywords )
results = scrap . run ()
for result in results :
pprint . pprint ( result )
Lebih detailnya ada di bagian contoh [2] pada dokumentasi.
Untuk menghindari masalah encode/decode gunakan perintah ini sebelum Anda mulai menggunakan SerpScrap di cli Anda.
chcp 65001
set PYTHONIOENCODING=utf-8
Catatan tentang perubahan besar antar rilis
Saya merekomendasikan pembaruan SerpScrap ke versi terbaru, karena mesin pencari telah memperbarui markup halaman hasil pencarian (serp)
SerpScrap menggunakan Chrome headless [3] dan lxml [4] untuk mengikis hasil serp. Untuk konten teks mentah dari URL yang diambil, menggunakan beautifulsoup4 [5] . SerpScrap juga mendukung PhantomJs [6] , yang sudah tidak digunakan lagi, WebKit tanpa kepala yang dapat skrip, yang diinstal secara otomatis saat pertama kali dijalankan (Linux, Windows). Scrapcore didasarkan pada GoogleScraper [7] , sebuah proyek yang ketinggalan jaman, dan memiliki banyak perubahan dan peningkatan.
[1] | http://serpscrap.readthedocs.io/en/latest/install.html |
[2] | http://serpscrap.readthedocs.io/en/latest/examples.html |
[3] | http://chromedriver.chromium.org/ |
[4] | https://lxml.de/ |
[5] | https://www.crummy.com/software/BeautifulSoup/ |
[6] | https://github.com/ariya/phantomjs |
[7] | https://github.com/NikolaiT/GoogleScraper |