之前我一直強調細節的優化,是的現在的百度對網站的要求就是看你的細節做得好不好,代碼、標籤等等有屬於細節,那麼Robots也屬於網站細節的一部分,做好他對我們網站有一個很大的幫助,可能有很多新站長不知道Robots是一個什麼東東,下面我就跟大家說幾點關於Robots的操作。
一、Robots.txt的由來
我們首先要明白Robots不是指令或指令,Robots是一個網站和搜尋引擎的第三方協議,協議的內容就是Robots.txt裡面的內容,早期在網站是用於隱私保護用的,他是存在於我們網站根目錄的一個txt檔案。
二、Robots.txt的作用
我們做好網站上線的時候,會有很多不可抗拒的因素被搜尋引擎放出來,從而導致我們的網頁的品質整體下降,導致我們網站在搜尋引擎的印象變差,Robots的作用就是屏蔽這些不可抗拒的因素不讓蜘蛛把他們放出來,那我們具體應該屏蔽哪一些頁面呢?
1.封鎖一些無內容頁面:給大家舉個例子就了然了,例如:註冊頁、登陸頁、購物頁、發文頁、留言頁、搜尋首頁、如果你做了404錯誤頁面也要封鎖。
2.屏蔽重複頁面:如果我們發現我們網站有兩個內容相同的頁面,但是路徑不同,我們就要用Robots屏蔽一個頁面,蜘蛛還是會抓取但是不會放出來,我們可以在谷歌站長工具裡面直接查看被攔截的頁面數量。
3.屏蔽一些死連結頁面
我們只屏蔽那些有普通特徵的頁面就可以,蜘蛛爬取不到並不意味著蜘蛛抓取不到地址,能夠抓取到地址和能否抓取到是兩個概念,當然我們可以進行處理的死連結我們是不需求屏蔽的,不可以處理的例如我們該路徑造成的死連結我們是需要屏蔽的。
4.屏蔽一些較長的路徑:超過網址輸入框的長路徑我們可以用Robots屏蔽。
三、Robots.txt的使用
1.Robots.txt的建立
在本地新建一個記事本文件,把它命名為Robots.txt,然後把這個文件放到我們的根目錄下,這樣我們的Robots.txt就建立完成了,有些開源程序比如織夢是自帶Robots的,我們修改的時候只要從根目錄下載就好。
2.常見的語法
User-agent這個語法是定義搜尋引擎爬取程式的。 Disallow這個是禁止的意思。 Allow這個是允許的意思。
我們先來認識搜尋引擎抓取程式也就是蜘蛛或機器人
百度蜘蛛我們在Robots上寫Baiduspider而谷歌機器人我們就寫Googlebot
我們來介紹寫法,我們的第一行是先定義搜尋引擎
User-agent: Baiduspider(特別要注意的是我們在寫Robots的時候冒號後面一定要有一個空格,同時如果我們要定義所有搜尋引擎我們就要用*帶代替Baiduspider)
Disallow: /admin/
這句話的意思是告訴百度蜘蛛您不要來收錄我網站的admin資料夾當中的網頁,如果我們把admin後面的斜槓去掉這個的意思即完全變了,意思就成了告訴百度蜘蛛您不要收錄我根目錄裡所有的admin資料夾當中的網頁。
Allow意思是允許、不禁止,一般來說不會單獨使用它,他會和Disallow一起使用,一起使用的目的是便於目錄的屏蔽靈活的應用,更為了減少代碼的使用,舉個例子比如我們/ SEO/資料夾中有10萬個文件,有兩個文件是需要抓取的,我們總不能寫幾萬個程式碼那樣會累夠嗆,我們配合起來只需要幾行就行了。
User-agent: *(定義所有搜尋引擎)
Disallow: /seo/ (禁止對seo資料夾收錄)
Allow: /seo/ccc.php
Allow: /seo/ab.html
同時允許這兩份檔案需要抓取收錄,這樣我們四行程式碼就解決了,有人會問是Disallow放在前面還是Allow放在前面,還是Disallow放在前面比較規範。
本文由http://www.51diaoche.net原創歡迎轉載轉載請註明原作者
責任編輯:揚揚作者龍鋒起重機械的個人空