Mari kita mulai dengan hal yang sama seperti sebelumnya. Mari kita bicara tentang ide membuat crawler dan pengetahuan yang perlu dipersiapkan.
Pertama, mari kita pikirkan apa yang ingin kita lakukan dan buat daftar beberapa persyaratan sederhana.
Persyaratannya adalah sebagai berikut:
1. Simulasikan akses ke situs resmi Zhihu (http://www.zhihu.com/)
2. Unduh konten halaman yang ditentukan, termasuk: terpanas hari ini, terpanas bulan ini, dan rekomendasi editor
3. Download semua soal dan jawaban pada kategori yang ditentukan, seperti: investasi, pemrograman, mata kuliah gagal
4. Download seluruh jawaban dari responden yang ditentukan
5. Akan lebih baik jika memiliki fungsi seperti satu klik yang menyimpang (sehingga saya dapat menyukai semua jawaban Laylen sekaligus. Saya sangat pintar!)
Kemudian permasalahan teknis yang perlu diselesaikan dirangkum secara singkat sebagai berikut:
1. Simulasikan akses browser ke halaman web
2. Ambil data penting dan simpan secara lokal
3. Mengatasi masalah pemuatan dinamis dalam penjelajahan web
4. Gunakan struktur pohon untuk merayapi semua konten di Zhihu secara besar-besaran
Oke, itu saja yang aku pikirkan saat ini.
Langkah selanjutnya adalah persiapan.
1. Tentukan bahasa perayap: Karena saya telah menulis serangkaian tutorial perayap sebelumnya (klik di sini), Baidu Tieba, Ensiklopedia Hal-Hal yang Memalukan, kueri nilai Universitas Shandong, dll. semuanya ditulis dengan python, jadi saya memutuskan untuk menggunakan Java untuk menulisnya kali ini (beri makan sepenuhnya Jika Anda tidak punya setengah sen, mengapa Anda tidak menghubungi saya?)
2. Pengetahuan perayap sains populer: Perayap web, atau Laba-laba Web, adalah nama yang sangat jelas. Jika Internet diumpamakan dengan jaring laba-laba, maka laba-laba adalah laba-laba yang merayapi jaring. Laba-laba web mencari halaman web melalui alamat tautannya. Untuk pengenalan lebih detail, silakan klik di sini.
3. Mempersiapkan lingkungan crawler: Saya tidak akan menjelaskan secara detail tentang instalasi dan konfigurasi Jdk dan Eclipse. Di sini, browser yang baik sangat penting bagi perayap, karena pertama-tama Anda perlu menjelajahi web untuk mengetahui di mana hal-hal yang Anda perlukan, dan baru setelah itu Anda dapat memberi tahu perayap ke mana harus pergi dan cara merayapi. Saya pribadi merekomendasikan Firefox atau Google Chrome. Fungsi klik kanan untuk memeriksa elemen dan melihat kode sumber sangat kuat.
Sekarang kita memulai perjalanan perayap resmi! ~Apa yang harus saya bicarakan secara spesifik? Baiklah, ini sebuah pertanyaan. Biarkan saya memikirkannya