我們知道有很大一部分的站長尋找一種不讓蜘蛛在自己網站上爬行自己網頁的方法,也同樣透過使用robot.txt檔案做到了這一點。雖然這確實是一個很好的實踐行為,但問題也同樣呈現出來:在對使用robot.txt阻止Google/Yahoo!/MSN或者一些其他的搜尋引擎的蜘蛛爬行時的疑惑!下面的簡要的說明:
透過Robots.txt來阻止抓取:有些URL位址不想被訪問,但仍然可以抓取並出現在搜尋引擎的結果頁面。
透過META標籤的NoIndex來阻止:可以訪問,但是不想被抓取,在搜尋結果中也不想被列出來。
透過禁止沿著頁面上的連結繼續抓取來阻止:這不是一個很明智的舉動,因為有一些其他的連結任然希望透過抓取頁面來索引它!(如果你不在乎這會浪費蜘蛛在你頁面上檢索的時間的話那你也可以這樣做,但是不要認為這樣做就會讓它不出現在搜尋引擎的結果頁)
下面給個簡單的例子雖然在robot.txt裡面限制了蜘蛛的抓取但是仍然會出現在Google的搜尋結果中。
(robot.txt檔案同樣對子網域有效)
我們可以看到這個about.com的/library/nosearch/檔案已經被封鎖了,下圖所示當我們在Google裡搜尋這個檔案裡的URL位址的結果:
注意看Google依然有2,760個搜尋結果在所謂的被組織的目錄下。它們沒有抓取這些頁面,所以看見的只有簡單的一個連結位址,沒有描述沒有標題,因為Google看不見這些頁面的內容。
讓我們在進一步的設想,如果你有很大一個數量的網頁不想被搜尋引擎抓取,但是這些URL地址還是會被計算在內,並累計流量等其他一些不為人知的獨立的排名因素,但是它們並不能沿著這個連結繼續爬下去,因此從它們倒出的連結永遠不可能被看到,請看下圖:
這裡有兩個便捷的方法:
1. 節省這些連結資料流通過當連結到robot.txt裡面禁止的的目錄時使用nofollow指令。
2. 如果你知道這些被禁止的頁面有哪些固定的連結流(特別是外鏈帶來的),可以考慮下使用meta的noindex,follow來代替,這樣蜘蛛就會跳過這些連結流,以便節省時間去檢索更多你網站裡需要它的頁面!
本文出自reamo個人SEO技術,網路推廣部落格:http://www.aisxin.cn轉載請註明出處。