เครื่องมืออันทรงพลังสำหรับการรวบรวมข้อมูล Baidu
จีนตัวย่อ |. จีนตัวเต็ม | . อังกฤษ
เริ่มต้นอย่างรวดเร็ว »
ดูตัวอย่าง · รายงานปัญหา · ร้องขอข้อกำหนด
เสิร์ชเอ็นจิ้นเป็นเครื่องมือที่ทรงพลังมากและหากเครื่องมืออื่นสามารถรวมเข้ากับฟังก์ชั่นอันทรงพลังมากมายของเสิร์ชเอ็นจิ้นได้ เครื่องมือเหล่านี้จะยิ่งมีประสิทธิภาพมากยิ่งขึ้น แต่ขณะนี้ฉันไม่พบโปรแกรมรวบรวมข้อมูลโอเพ่นซอร์สที่สามารถดึงผลการค้นหาของเครื่องมือค้นหาได้อย่างแม่นยำ ดังนั้นฉันจึงเขียนโปรเจ็กต์นี้เพื่อรวบรวมข้อมูลเครื่องมือค้นหาของ Baidu: BaiduSpider
คุณสมบัติพิเศษของ BaiduSpider:
ช่วยประหยัดเวลาในการดึงข้อมูลและเป็นความช่วยเหลือที่ดีสำหรับการสร้างโมเดลข้อมูลและการฝึกอบรมในโครงการการเรียนรู้เชิงลึกที่คล้ายกัน
แยกข้อมูลอย่างแม่นยำและลบโฆษณา
ผลการค้นหามีขนาดใหญ่และครอบคลุม รองรับการค้นหาหลายประเภทและการคืนสินค้าหลายประเภท
แน่นอนว่าไม่มีโครงการใดที่สมบูรณ์แบบ การพัฒนาโครงการใด ๆ ต้องได้รับความช่วยเหลือจากชุมชน คุณสามารถช่วยให้ BaiduSpider ก้าวหน้าได้โดยการเผยแพร่ปัญหาหรือส่ง PR! :รอยยิ้ม:
เอกสารหรือเครื่องมือที่เป็นประโยชน์บางรายการจะแสดงอยู่ในส่วนการรับทราบในตอนท้าย
ไลบรารีอ้างอิงโอเพ่นซอร์สหลักบางอันที่ BaiduSpider ใช้
ในการติดตั้ง BaiduSpider โปรดทำตามขั้นตอนต่อไปนี้
ก่อนที่จะติดตั้ง BaiduSpider โปรดตรวจสอบให้แน่ใจว่าคุณได้ติดตั้ง Python3.6+
แล้ว:
$ python --version
หากเวอร์ชันน้อยกว่า 3.6.0
โปรดไปที่เว็บไซต์อย่างเป็นทางการของ Python เพื่อดาวน์โหลดและติดตั้ง Python
pip
กรุณาพิมพ์ที่บรรทัดคำสั่ง:
$ pip install baiduspider
$ git clone [email protected]:BaiduSpider/BaiduSpider.git
# ...
$ python setup.py install
คุณสามารถใช้โค้ดต่อไปนี้เพื่อรับผลการค้นหาเว็บของ Baidu ผ่าน BaiduSpider:
# 导入BaiduSpider
from baiduspider import BaiduSpider
from pprint import pprint
# 实例化BaiduSpider
spider = BaiduSpider ()
# 搜索网页
pprint ( spider . search_web ( query = 'Python' ))
สำหรับตัวอย่างและการกำหนดค่าเพิ่มเติม โปรดดูเอกสารประกอบ
โปรดดูการเปิดประเด็นสำหรับแผนโครงการล่าสุดและปัญหาที่ทราบ
การมีส่วนร่วมของชุมชนถือเป็นจิตวิญญาณของโครงการโอเพ่นซอร์ส และยังเป็นวิธีสำหรับชุมชนโอเพ่นซอร์สทั้งหมดเพื่อเรียนรู้ สื่อสาร และรับแรงบันดาลใจ เรา ยินดีต้อนรับ ทุกคนที่มีส่วนร่วมในการพัฒนาและบำรุงรักษาโครงการนี้
ขั้นตอนเฉพาะในการเข้าร่วมมีดังนี้:
git checkout -b NewFeatures
)git commit -m 'Add some AmazingFeature'
)git push origin username/BaiduSpider
) โครงการนี้เป็นโอเพ่นซอร์สที่ใช้ GPL-V3
โปรดดู LICENSE
ซัมจังจึ - @samzhangjy - [email protected]
ลิงค์โครงการ: https://github.com/BaiduSpider/BaiduSpider
โปรเจ็กต์นี้มีวัตถุประสงค์เพื่อการเรียนรู้เท่านั้น และไม่สามารถใช้เพื่อวัตถุประสงค์ทางการค้าหรือรวบรวมข้อมูลข้อมูล Baidu จำนวนมากได้ นอกจากนี้ โครงการนี้ใช้ข้อตกลงลิขสิทธิ์ GPL-V3
ซึ่งหมายความว่าโครงการอื่น ๆ ที่เกี่ยวข้อง (ใช้) โครงการนี้จะต้องเป็นโอเพ่นซอร์สและระบุแหล่งที่มา และผู้เขียนโครงการนี้ไม่รับความเสี่ยงทางกฎหมายใด ๆ ที่เกิดจากการใช้งานในทางที่ผิด ระบุไว้ในที่นี้ว่าผู้ฝ่าฝืนจะต้องรับผลที่ตามมาด้วยความเสี่ยงของตนเอง