Ini adalah pengikis web untuk pencarian Sina Weibo dengan kata kunci
Ada beberapa pencakar Sina Weibo. Namun, mereka semua diimplementasikan dengan Weibo API. Sina Weibo membatasi jumlah data yang dapat diperoleh setiap jam, hari, dan bulan jika API digunakan. Ini adalah pengikis web untuk pencarian Sina Weibo dengan kata kunci yang diimplementasikan oleh pengkodean URL murni sehingga mensimulasikan browser nyata, menavigasi ke halaman dan mendapatkan akses ke data. Itu menghilangkan batasan. Ada kemungkinan bahwa Weibo akan membiarkan Anda memasukkan kode verifikasi untuk membuktikan bahwa Anda bukan mesin, tetapi tidak sering.
Xuzhou Yin. Situs web pribadi: www.xuzhouyin.com
Terminal terbuka, dan arahkan ke direktori tempat Anda ingin menyimpan program, lalu ketik git clone address
untuk mengunduh program
pip install selenium
pip install time
pip install bs4
pip install urllib
pip install datetime
pip install unicodecsv
Sina Weibo membatasi izin fitur pencarian yang hanya ditandatangani oleh pengguna yang dapat menggunakan pencarian lanjutan (seperti pencarian dengan periode waktu tertentu). Jadi silakan mendaftar untuk akun Sina Weibo dan masuk melalui browser Firefox (jadi Firefox secara otomatis menandatangani di waktu berikutnya). Kemudian temukan jalur profil firefox (lihat di mana profil firefox disimpan). dan ganti jalur di baris 49 di scraper.py
.
File query.txt
adalah untuk menyimpan semua kueri. Harap tambahkan kueri dalam bentuk keyword;eventDate;startDate;endDate;pageofResult
, satu kueri per baris. Sina Weibo tidak mendukung fitur "gulir ke bawah untuk melihat lebih banyak" dalam pencarian. Sebaliknya, itu memisahkan hasil kueri menjadi halaman. Dan Sina membatasi halaman hasil menjadi 50. Jadi untuk setiap kueri, hanya 50 halaman hasil yang dapat diakses oleh pengguna. Dan setiap halaman berisi 20 posting. Oleh karena itu, untuk setiap pencarian ada maksimum 1000 posting dapat diperoleh. Namun, mungkin ada kasus kurang dari 1000 posting dari kueri. Jadi silakan periksa jumlah maksimum halaman yang berisi semua hasil kueri .
Jalankan program dengan mengetik python scraper.py
Browser Firefox akan dieksekusi, dinavigasi ke halaman pencarian dengan kata kunci secara otomatis.
Hasil akan berada di folder output
dalam format CSV. Setiap kueri menghasilkan satu file CSV. Excel memiliki masalah menampilkan karakter Cina. Jadi melihat melalui editor teks lain lebih baik (jika Anda menggunakan Mac, Anda dapat menggunakan angka untuk membuka file CSV).
Untuk saat ini program ini hanya mendukung kueri dengan kata kunci untuk tujuan saya sendiri. Setiap orang bebas menjelajahi fitur baru. Ada satu hal yang perlu dicatat bahwa itu tidak menggunakan SINA WEIBO API karena Weibo membatasi jumlah data untuk meminta jika API digunakan. Ini pada dasarnya menggunakan cookie Broswer untuk masuk, alamat URL untuk melakukan pencarian. Harap kirimkan permintaan tarik jika Anda dibaca untuk berkontribusi.
Proyek ini dilisensikan di bawah lisensi MIT - lihat file lisensi.txt untuk detailnya