正如你所知道的,你不能總是依賴蜘蛛引擎在訪問或索引你的網站時能夠十分有效的運作。完全依靠他們自己的端口,蜘蛛會產生許多重複內容,把一些重要頁面當成垃圾,索引本不應該展示給用戶的鏈接入口,還會有其他的問題。有一些工具可以讓我們能夠充分控制蜘蛛在網站內部的活動,例如meta robots標籤,robots.txt、canonical標籤等。
今天,我講一下機器人控制技術使用的限制。為了讓蜘蛛不抓取某一個頁面,站長們有時會使用多個機器人控制技術, 來禁止搜尋引擎訪問某個網頁。不幸的是,這些技術能有時互相抵觸:從另一方面說這樣的限制會把某些死鏈給隱藏掉了。
那麼,當一個頁面的robots文件中被禁止訪問,或者被使用noindex tag 和canonical tag時會發生什麼?
快速複習
在我們進入主題之前,讓我們來看看那些主流的robots的一些限制技巧吧:
元機器人標籤
元機器人標籤(Meta Robots Tag)為搜尋引擎機器人建立頁面等級說明。元機器人標籤應放在HTML檔案的頭部。
規範標籤(canonical tag)
規範標籤(canonical tag)是一個位於網頁HTML頭部的頁面等級的元標籤。它告訴搜尋引擎哪一個URL的顯示是規範的。它的目的是不讓搜尋引擎抓取重複內容,同時將重複頁面的權重集中在規範的那一個頁面上。
程式碼是這樣的:
<link rel="canonical" href=" http://example.com/quality-wrenches.htm"/ >
X機器人標籤
自2007年以來,Google和其他搜尋引擎已經支援將X-Robots-Tag作為一種方法來告訴蜘蛛爬行和索引的優先順序,X-Robots-Tag位於HTTP頭部,曾用於通知蜘蛛爬行和索引文件而用。該標籤對控制那些非HTML檔案的索引是很有用的,例如PDF檔案。
機器人標籤
robots.txt允許一些搜尋引擎進入網站內部,但是它並不能保證具體某個頁面會不會被抓取和索引。除非出於SEO的原因,否則只有當確實有必要或在網站上有需要屏蔽的robots時robots.txt才確實值得使用。我總是推薦使用元資料標籤“noindex”來代替它。
避免衝突
同時利用兩種方法來限制robot入口是不明智的:
· Meta Robots 'noindex' (元機器人標籤“noindex”)
· Canonical Tag (when pointing to a different URL) (標準標籤)
· Robots.txt Disallow
· X-Robots-Tag(x機器人標籤)
儘管你很想去保持頁面的搜尋結果,但是一個辦法總是比兩個好。讓我們來看看當在一個單一的URL中有很多robots路徑控制技術時會發生什麼。
Meta Robots 'noindex' 和Canonical標籤
如果你的目標是一個URL的權重傳遞給另一個URL,而你卻沒有其他的更好辦法的時候,那就只能用Canonical標籤。不要用元機器人標籤的「noindex」來給自己添麻煩。如果你使用兩個robot的方法,搜尋引擎可能根本看不到你的Canonical標籤。權重傳遞的效用將會被忽略,因為機器人的noindex標籤會使它看不見Canonical標籤!
Meta Robots 'noindex' & X-Robots-Tag 'noindex'
這些標籤是多餘的。這兩個標籤放置在同一個頁面我只能看到的是對SEO造成的不良影響。如果你能在元機器人'noindex'中改變頭檔,你就不應該使用x機器人標籤吧。
Robots.txt Disallow &Meta Robots 'noindex'
這是我看過的最常見的衝突:
我之所以青睞Meta Robots「noindex」的原因是因為它可以有效的阻止一個頁面被索引,同時它還還是可以傳遞權重到連接這個頁面的更深層次的頁面。這是一個雙贏的方法。 robots.txt檔案不允許完全限制搜尋引擎查看頁面上的資訊(以及其中有價值的內部連結),特別是不能限制url被索引。有什麼好處?我曾經單獨寫過一篇關於這個主題的文章。
如果兩個標籤都使用,robots.txt保證會使Meta Robots 'noindex' 不被蜘蛛看到。你會受到robots.txt中disallow的影響並且錯過了所有的Meta Robots'noindex'帶來的所有好處。
文章出處為www.leadseo.cn上海麗姿鷗,網站優化專家,轉載請保留出處!不勝感激!
責任編輯:陳龍作者frank12 的個人空