Bagaimana mencegah halaman website dirayapi berulang kali

Penulis：Eve Cole Waktu Pembaruan：2011-12-22 17:49:16

Mengamati dan menganalisis log situs web, kami menemukan bahwa banyak halaman situs web berulang kali dirayapi oleh laba-laba, yang sangat tidak baik untuk optimalisasi situs web. Jadi bagaimana kita mencegah halaman website dirayapi berulang kali oleh laba-laba?

1. Gunakan file robots untuk memblokir halaman ini.

Larang: /halaman/ #Batasi perayapan paginasi WordPress. Jika Anda perlu memeriksa situs web Anda, Anda juga dapat menulis pernyataan berikut bersama-sama untuk menghindari terlalu banyak halaman duplikat. * Larang: /category/*/page/* #Batasi perayapan halaman kategori* Larang:/tag/ #Batasi perayapan halaman tag* Larang: */trackback/ #Batasi perayapan konten Trackback* Larang:/kategori /* #Batasi perayapan semua daftar kategori Apa itu laba-laba? Ini juga disebut perayap. Ini sebenarnya adalah sebuah program. Fungsi program ini adalah membaca beberapa informasi lapis demi lapis di sepanjang URL situs web Anda, melakukan pemrosesan sederhana, dan kemudian memasukkannya kembali ke server backend untuk pemrosesan terpusat. Kita harus memahami preferensi spider untuk mengoptimalkan situs web dengan lebih baik. Selanjutnya mari kita bahas tentang proses kerja laba-laba.

2. Laba-laba menemukan halaman dinamis

Laba-laba menghadapi masalah saat memproses informasi halaman web dinamis. Halaman web dinamis mengacu pada halaman yang dihasilkan secara otomatis oleh program. Sekarang Internet berkembang, semakin banyak bahasa skrip untuk pengembangan program, dan semakin banyak jenis halaman web dinamis yang dikembangkan secara alami, seperti jsp, asp, php, dan bahasa lainnya. Sulit bagi laba-laba untuk memproses halaman web yang dihasilkan oleh bahasa skrip ini. Saat mengoptimalkan, pengoptimal selalu menekankan untuk tidak menggunakan kode JS sebanyak mungkin. Untuk menangani bahasa ini dengan sempurna, spider harus memiliki skripnya sendiri. Saat mengoptimalkan situs web, kurangi beberapa kode skrip yang tidak perlu untuk memfasilitasi perayapan laba-laba dan hindari perayapan halaman berulang kali!

3. Waktunya Laba-laba

Konten website sering berubah, baik melalui pembaruan maupun perubahan template. Spider juga terus-menerus memperbarui dan merayapi konten halaman web. Pengembang Spider akan mengatur siklus pembaruan untuk crawler, memungkinkannya memindai situs web sesuai waktu yang ditentukan untuk melihat dan membandingkan halaman mana yang perlu diperbarui, seperti: Halaman beranda Apakah judulnya sudah diubah, halaman mana yang merupakan halaman baru di website, halaman mana yang merupakan link mati yang sudah kadaluwarsa, dan sebagainya. Siklus pembaruan mesin pencari yang kuat terus dioptimalkan, karena siklus pembaruan mesin pencari mempunyai dampak besar pada tingkat penarikan kembali mesin pencari. Namun, jika siklus pembaruan terlalu lama, keakuratan pencarian dan integritas mesin pencari akan berkurang, dan beberapa halaman web yang baru dibuat tidak akan dapat dicari; jika siklus pembaruan terlalu pendek, implementasi teknis akan lebih sulit dan bandwidth akan terpengaruh. , menyebabkan pemborosan sumber daya server.

4. Strategi perayapan laba-laba yang tidak berulang

Jumlah halaman web di situs web sangat besar, dan perayapan laba-laba adalah proyek yang sangat besar. Meretas halaman web memerlukan banyak bandwidth saluran, sumber daya perangkat keras, sumber daya waktu, dll. Jika halaman web yang sama sering dirayapi berulang kali, hal ini tidak hanya akan sangat mengurangi efisiensi sistem, tetapi juga menyebabkan masalah seperti rendahnya akurasi. Biasanya sistem mesin pencari telah merancang strategi untuk tidak melakukan crawling berulang kali pada halaman web. Hal ini untuk memastikan bahwa halaman web yang sama hanya dirayapi satu kali dalam jangka waktu tertentu.

Ini adalah pengenalan tentang cara menghindari perayapan berulang pada halaman situs web. Artikel ini diedit oleh Global Trade Network.

Pemimpin Redaksi: Ruang pribadi Chen Long Penulis Fuzhou SEO Planning