Tip untuk Menghindari Perayapan Laba-laba dan Kesalahan Pengindeksan: Melewati Konflik

Penulis：Eve Cole Waktu Pembaruan：2011-09-06 17:10:34

Seperti yang Anda ketahui, Anda tidak bisa selalu mengandalkan mesin spider untuk beroperasi secara efisien saat mengakses atau mengindeks situs Anda. Dengan mengandalkan sepenuhnya pada portnya sendiri, spider akan menghasilkan banyak duplikat konten, memperlakukan halaman penting sebagai sampah, mengindeks entri tautan yang tidak boleh ditampilkan kepada pengguna, dan mengalami masalah lain. Ada beberapa alat yang memungkinkan kita mengontrol sepenuhnya aktivitas laba-laba di dalam situs web, seperti tag meta robots, robots.txt, tag kanonik, dll.

Hari ini saya akan berbicara tentang keterbatasan penggunaan teknologi kendali robot. Untuk mencegah laba-laba merayapi laman tertentu, webmaster terkadang menggunakan beberapa teknologi kontrol robot untuk melarang mesin telusur mengakses laman web tertentu. Sayangnya, teknik-teknik ini kadang-kadang dapat bertentangan satu sama lain: di sisi lain, pembatasan tersebut dapat menyembunyikan link mati tertentu.

Jadi, apa yang terjadi jika file robots suatu laman diblokir aksesnya, atau digunakan dengan tag noindex dan tag kanonik?

Tinjauan cepat

Sebelum kita masuk ke topik ini, mari kita lihat beberapa teknik yang membatasi robot arus utama:

tag metabot

Tag Meta Robots menetapkan deskripsi peringkat halaman untuk robot mesin pencari. Tag meta robot harus ditempatkan di bagian atas file HTML.

tag kanonik

Tag kanonik adalah tag meta tingkat halaman yang terletak di header HTML halaman web. Ini memberi tahu mesin pencari URL mana yang ditampilkan dengan benar. Tujuannya adalah untuk mencegah mesin pencari merayapi konten duplikat, dan pada saat yang sama memusatkan bobot halaman duplikat pada halaman standar.

Kodenya seperti ini:

Tag Robot X

Sejak tahun 2007, Google dan mesin pencari lainnya telah mendukung X-Robots-Tag sebagai cara untuk memberitahu spider agar memprioritaskan perayapan dan pengindeksan file untuk digunakan. Tag ini berguna untuk mengontrol pengindeksan file non-HTML, seperti file PDF.

tanda robot

robots.txt mengizinkan beberapa mesin pencari untuk masuk ke situs web, tetapi tidak menjamin apakah halaman tertentu akan dirayapi dan diindeks. Kecuali karena alasan SEO, robots.txt sebenarnya hanya layak digunakan jika memang diperlukan atau jika ada robot di situs yang perlu diblokir. Saya selalu merekomendasikan penggunaan tag metadata "noindex" sebagai gantinya.

menghindari konflik

Tidaklah bijaksana menggunakan dua metode untuk membatasi masuknya robot secara bersamaan:

· Meta Robot 'noindex'

· Tag Canonical (saat menunjuk ke URL yang berbeda)

· Robots.txt Larang

· X-Robot-Tag (x tag robot)

Meskipun Anda ingin mempertahankan halaman Anda di hasil pencarian, satu pendekatan selalu lebih baik daripada dua pendekatan. Mari kita lihat apa yang terjadi jika ada banyak teknik kontrol jalur robot dalam satu URL.

Meta Robots 'noindex' dan tag Canonical

Jika tujuan Anda adalah meneruskan otoritas satu URL ke URL lain, dan Anda tidak memiliki cara lain yang lebih baik, maka Anda hanya dapat menggunakan tag Canonical. Jangan membuat diri Anda mendapat masalah dengan "noindex" dari tag meta robot. Jika Anda menggunakan metode dua robot, mesin pencari mungkin tidak melihat tag Canonical Anda sama sekali. Efek perpindahan bobot akan diabaikan karena tag noindex robot akan mencegahnya melihat tag Canonical!

Meta Robots 'noindex' & X-Robots-Tag 'noindex'

Label-label ini mubazir. Ketika kedua tag ini ditempatkan pada halaman yang sama, saya hanya dapat melihat dampak negatifnya terhadap SEO. Jika Anda dapat mengubah file header di metabot 'noindex', sebaiknya Anda tidak menggunakan tag xbot.

Robots.txt Larang &Meta Robots 'noindex'

Berikut adalah konflik paling umum yang pernah saya lihat:

Alasan mengapa saya lebih memilih "noindex" Meta Robots adalah karena ini secara efektif mencegah halaman diindeks, sambil tetap meneruskan bobot ke halaman lebih dalam yang terhubung ke halaman ini. Ini adalah pendekatan yang saling menguntungkan. File robots.txt tidak diperbolehkan untuk sepenuhnya membatasi mesin pencari untuk melihat informasi pada halaman (dan tautan internal berharga di dalamnya), dan secara khusus tidak dapat membatasi pengindeksan URL. Apa manfaatnya? Saya pernah menulis artikel terpisah tentang topik ini.

Jika kedua tag tersebut digunakan, robots.txt dijamin membuat Meta Robots 'noindex' tidak terlihat oleh spider. Anda akan terpengaruh oleh pelarangan di robots.txt dan kehilangan semua manfaat 'noindex' Meta Robots.

Sumber artikelnya adalah www.leadseo.cn Shanghai Leadseo, pakar pengoptimalan situs web. Harap simpan sumbernya saat mencetak ulang!

Penanggung jawab editor: Ruang pribadi Chen Long Penulis frank12