Berhati-hatilah agar robots.txt tidak memblokir perayapan tautan

Penulis：Eve Cole Waktu Pembaruan：2009-06-05 22:45:04

Kita tahu bahwa sejumlah besar webmaster mencari cara untuk mencegah laba-laba merayapi laman mereka di situs web mereka, dan mereka juga melakukannya dengan menggunakan file robot.txt. Meskipun ini merupakan praktik yang baik, masalahnya juga muncul: kebingungan saat menggunakan robot.txt untuk mencegah perayapan Google/Yahoo!/MSN atau beberapa spider mesin pencari lainnya! Berikut penjelasan singkatnya:

Cegah perayapan melalui Robots.txt: Beberapa alamat URL tidak ingin diakses, namun masih dapat dirayapi dan muncul di halaman hasil mesin pencari.

Diblokir oleh NoIndex dari tag META: dapat diakses, tetapi tidak ingin dirayapi dan tidak ingin tercantum dalam hasil pencarian.

Blokir dengan menonaktifkan perayapan tautan pada laman: Ini bukan langkah cerdas karena ada beberapa tautan lain yang masih ingin merayapi laman untuk mengindeksnya! (Jika Anda tidak peduli, ini akan menyia-nyiakan laba-laba di laman Anda. Anda juga dapat melakukan ini jika Anda ingin menambah waktu pencarian, tetapi jangan berpikir bahwa hal itu akan mencegahnya muncul di halaman hasil mesin pencari)

Berikut adalah contoh sederhananya. Meskipun perayapan laba-laba dibatasi di robot.txt, perayapan laba-laba akan tetap muncul di hasil penelusuran Google.

(file robot.txt juga valid untuk subdomain)

Kita dapat melihat bahwa file /library/nosearch/ dari about.com telah diblokir. Gambar berikut menunjukkan hasil ketika kita mencari alamat URL pada file ini di Google:

Perhatikan bahwa Google masih memiliki 2.760 hasil pencarian dalam kategori terorganisir. Mereka tidak merayapi halaman-halaman ini, jadi yang mereka lihat hanyalah alamat tautan sederhana, tanpa deskripsi dan judul, karena Google tidak dapat melihat konten halaman-halaman ini.

Mari kita bayangkan lebih jauh bahwa jika Anda memiliki sejumlah besar halaman web yang tidak ingin Anda jelajahi oleh mesin pencari, alamat URL ini akan tetap dihitung dan mengakumulasi lalu lintas dan faktor peringkat independen lainnya yang tidak diketahui, namun Mereka tidak dapat mengikuti linknya, jadi link yang keluar tidak akan pernah terlihat, lihat gambar dibawah ini:

Berikut dua metode mudah:

1. Simpan lalu lintas tautan ini dengan menggunakan perintah nofollow saat menautkan ke direktori terlarang di robot.txt.

2. Jika Anda mengetahui aliran tautan tetap dari halaman yang dilarang ini (terutama yang dibawa oleh tautan eksternal), Anda dapat mempertimbangkan untuk menggunakan noindex meta dan ikuti, sehingga laba-laba akan melewati aliran tautan ini untuk menghemat uang situs web Anda yang membutuhkannya!

Artikel ini berasal dari teknologi SEO pribadi reamo, blog promosi online: http://www.aisxin.cn Harap sebutkan sumbernya saat mencetak ulang.