Alat yang ampuh untuk merayapi Baidu
Bahasa Mandarin Sederhana |. Bahasa Mandarin Tradisional |
Mulailah dengan cepat »
Lihat contoh · Laporkan masalah · Minta persyaratan
Mesin pencari adalah alat yang sangat ampuh, dan jika alat lain dapat diintegrasikan dengan banyak fungsi canggih dari mesin pencari, maka alat ini akan menjadi lebih canggih lagi. Namun saat ini saya belum menemukan crawler open source yang dapat mengekstrak hasil pencarian mesin pencari secara akurat. Jadi, saya menulis proyek ini untuk merayapi mesin pencari Baidu: BaiduSpider.
Fitur unik BaiduSpider:
Ini menghemat waktu dalam mengekstraksi data dan merupakan bantuan yang baik untuk pembuatan dan pelatihan model data dalam proyek pembelajaran mendalam serupa.
Ekstrak data secara akurat dan hapus iklan.
Hasil pencariannya besar dan komprehensif, mendukung berbagai jenis pencarian dan jenis pengembalian.
Tentu saja, tidak ada proyek yang sempurna. Perkembangan suatu proyek memerlukan bantuan masyarakat. Anda dapat membantu kemajuan BaiduSpider dengan menerbitkan Edisi atau mengirimkan PR! :senyum:
Beberapa dokumen atau alat yang berguna tercantum di bagian Ucapan Terima Kasih di bagian akhir.
Beberapa perpustakaan ketergantungan sumber terbuka utama yang digunakan oleh BaiduSpider.
Untuk menginstal BaiduSpider, silakan ikuti beberapa langkah berikut.
Sebelum menginstal BaiduSpider, pastikan Anda telah menginstal Python3.6+
:
$ python --version
Jika versinya kurang dari 3.6.0
, silakan kunjungi situs web resmi Python untuk mengunduh dan menginstal Python.
pip
Silakan ketik di baris perintah:
$ pip install baiduspider
$ git clone [email protected]:BaiduSpider/BaiduSpider.git
# ...
$ python setup.py install
Anda dapat menggunakan kode berikut untuk mendapatkan hasil pencarian web Baidu melalui BaiduSpider:
# 导入BaiduSpider
from baiduspider import BaiduSpider
from pprint import pprint
# 实例化BaiduSpider
spider = BaiduSpider ()
# 搜索网页
pprint ( spider . search_web ( query = 'Python' ))
Untuk contoh dan konfigurasi lebih lanjut, silakan merujuk ke dokumentasi
Silakan merujuk ke Masalah Pembukaan untuk rencana proyek terbaru dan masalah umum.
Kontribusi komunitas adalah inti dari proyek sumber terbuka dan juga merupakan cara bagi seluruh komunitas sumber terbuka untuk belajar, berkomunikasi, dan mendapatkan inspirasi. Kami sangat menyambut siapa pun untuk berpartisipasi dalam pengembangan dan pemeliharaan proyek ini.
Langkah-langkah khusus untuk berpartisipasi adalah sebagai berikut:
git checkout -b NewFeatures
)git commit -m 'Add some AmazingFeature'
)git push origin username/BaiduSpider
) Proyek ini bersifat open source berdasarkan GPL-V3
, silakan lihat LICENSE
untuk detailnya.
samzhangjy - @samzhangjy - [email protected]
Tautan proyek: https://github.com/BaiduSpider/BaiduSpider
Proyek ini hanya untuk tujuan pembelajaran dan tidak dapat digunakan untuk tujuan komersial atau untuk merayapi data Baidu dalam jumlah besar. Selain itu, proyek ini menggunakan perjanjian hak cipta GPL-V3
, yang berarti bahwa proyek lain yang melibatkan (menggunakan) proyek ini harus bersifat open source dan menunjukkan sumbernya, dan penulis proyek ini tidak menanggung risiko hukum apa pun yang disebabkan oleh penyalahgunaan. Dengan ini dinyatakan bahwa pelanggar menanggung akibatnya atas risiko mereka sendiri.