เครื่องมือขูด SEO python เพื่อดึงข้อมูลจากหน้าผลลัพธ์ของเครื่องมือค้นหาหลัก แยกข้อมูล เช่น url, ชื่อ, ตัวอย่างข้อมูล, ตัวอย่างข้อมูลสมบูรณ์ และประเภทจากผลการค้นหาสำหรับคำหลักที่กำหนด ตรวจจับโฆษณาหรือสร้างภาพหน้าจออัตโนมัติ คุณยังสามารถดึงเนื้อหาข้อความของ URL ที่ให้ไว้ในผลการค้นหาหรือของคุณเองได้ มีประโยชน์สำหรับ SEO และงานวิจัยที่เกี่ยวข้องกับธุรกิจ
รับภาพหน้าจอของแต่ละหน้าผลลัพธ์ด้วย คุณยังสามารถขูดเนื้อหาข้อความของ URL ผลลัพธ์แต่ละรายการได้ นอกจากนี้ยังสามารถบันทึกผลลัพธ์เป็น CSV เพื่อการวิเคราะห์ในอนาคตได้อีกด้วย หากจำเป็น คุณยังสามารถใช้รายการพรอกซีของคุณเองได้
ดูhttp://serpscrap.readthedocs.io/en/latest/สำหรับเอกสารประกอบ
ดูแหล่งที่มาได้ที่ https://github.com/ecoron/SerpScrap
วิธีทำง่ายๆ:
pip uninstall SerpScrap - y
pip install SerpScrap - - upgrade
รายละเอียดเพิ่มเติมในส่วนการติดตั้ง [1] ของเอกสารประกอบ
SerpScrap ในแอปพลิเคชันของคุณ
#!/usr/bin/python3
# -*- coding: utf-8 -*-
import pprint
import serpscrap
keywords = [ 'example' ]
config = serpscrap . Config ()
config . set ( 'scrape_urls' , False )
scrap = serpscrap . SerpScrap ()
scrap . init ( config = config . get (), keywords = keywords )
results = scrap . run ()
for result in results :
pprint . pprint ( result )
รายละเอียดเพิ่มเติมในส่วนตัวอย่าง [2] ของเอกสารประกอบ
เพื่อหลีกเลี่ยงปัญหาการเข้ารหัส/ถอดรหัส ให้ใช้คำสั่งนี้ก่อนที่คุณจะเริ่มใช้ SerpScrap ใน cli ของคุณ
chcp 65001
set PYTHONIOENCODING=utf-8
หมายเหตุเกี่ยวกับการเปลี่ยนแปลงที่สำคัญระหว่างการเปิดตัว
ฉันแนะนำให้อัปเดต SerpScrap เวอร์ชันล่าสุด เนื่องจากเครื่องมือค้นหาได้อัปเดตมาร์กอัปของหน้าผลการค้นหา (serp)
SerpScrap ใช้ Chrome headless [3] และ lxml [4] เพื่อขูดผลลัพธ์ serp สำหรับเนื้อหาข้อความดิบของ URL ที่ดึงมานั้นจะใช้ beautifulsoup4 [5] SerpScrap ยังรองรับ PhantomJs [6] ซึ่งเลิกใช้แล้ว ซึ่งเป็น WebKit แบบไม่มีสคริปต์ที่สามารถเขียนสคริปต์ได้ ซึ่งติดตั้งโดยอัตโนมัติในการรันครั้งแรก (Linux, Windows) เรื่องที่สนใจมีพื้นฐานมาจาก GoogleScraper [7] ซึ่งเป็นโครงการที่ล้าสมัย และมีการเปลี่ยนแปลงและปรับปรุงมากมาย
[1] | http://serpscrap.readthedocs.io/en/latest/install.html |
[2] | http://serpscrap.readthedocs.io/en/latest/examples.html |
[3] | http://chromedriver.chromium.org/ |
[4] | https://lxml.de/ |
[5] | https://www.crummy.com/software/BeautifulSoup/ |
[6] | https://github.com/ariya/phantomjs |
[7] | https://github.com/NikolaiT/GoogleScraper |