robots.txt文件,相較於朋友們或多或少的聽說過,也可能自己已經寫過了。其實到目前為止我自己還沒寫過robots.txt文件,不是不會寫,只是感覺博客中沒什麼內容需要阻止蜘蛛抓取的。而且想必大家也知道一個個人獨立部落格中出現死連結的機率應該是非常小的,不需要過多的進行死連結處理所以我感覺沒什麼必要。但是robots.txt文件寫法作為個人站長的必須掌握的技能之一,其用處還是很廣泛的。這裡就詳細介紹下,也算是自己溫習溫習。
什麼是robots.txt文件
我們從這個檔名來看,它是.txt後綴名的,大家也應該知道這是一個文字文件,也就是記事本。 robots,懂點英文的人應該都人士,是機器人的意思,對我們而言這個機器人代表的就是搜尋引擎機器人,從名字上就可以猜到這個文件是我們專門寫給蜘蛛看的。它的作用就是告訴蜘蛛,那些欄位或是那些頁面不需要抓取,當然也可以直接屏蔽掉某個蜘蛛的訪問。注意,這個檔案是放在網站根目錄下的,這樣才能確保蜘蛛可以在第一時間讀取檔案內容。
robots文件的作用
其實robots檔案最常被我們用到的就是封鎖網站內的死連結。大家應該知道一個網站死連結多了會影響網站的權重。但是網站死連結清理雖然說不上是麻煩,還是需要花上不少時間的,特別是如果站內死鏈接較多的情況下,清理起來很費勁,這時候robots文件的用處就體現出來了,我們可以直接將這些死連結依照格式寫入檔案中阻止蜘蛛抓取,想清理的或以後在慢慢清理。有些網站內容包含一些站長不想讓蜘蛛抓取的url或文件,也可以直接封鎖。對於屏蔽蜘蛛,用到的一般都比較少。
robots文件的寫法
這一點應該是比較重要的了。如果寫錯了想屏蔽的沒成功,想被抓取的卻寫進去自己不能及時發現可就虧大了。首先我們要知道兩個標籤,Allow和Disallow,一個是允許,一個是不允許,它的作用相比大家也都能理解。
User-agent: *
Disallow:
或者
User-agent: *
Allow:
這兩段內容表示的都是允許抓取所有,實際上屏蔽url和文件用到的是Disallow標籤,除非你的網站只有幾個想要被抓取採用Allow標籤。這個User-agent:後面跟的就是蜘蛛名稱,大家對主流的搜尋引擎蜘蛛名稱應該比較熟悉。以下以搜搜蜘蛛為例:Sosospider。
當我們想封鎖搜搜蜘蛛的時候:
User-agent: sosospider
Disallow: /
大家可以發現這個屏蔽蜘蛛跟上面允許相比只是多了一個“/”,其含義就起了翻天覆地的變化,所以在書寫的時候要千萬注意,可不能因為多寫個斜杠屏蔽了蜘蛛自己卻不知道。還有就是在user-agent:後邊不屑固定蜘蛛名稱跟的如果是「*」表示是針對所有蜘蛛的。
禁止某個目錄被搜尋引擎蜘蛛抓取,設定代碼如下:
User-agent: *
Disallow: /目錄/
注意,這裡如果是阻止抓取某目錄的話目錄名字一定要注意“/”,不帶“/”表示的是阻止訪問這個目錄頁面和目錄下的頁面,而帶上“/”則表示進阻止目錄下的內容頁面,這兩點要分清楚。如果是想屏蔽多個目錄就需要採用
User-agent: *
Disallow: /目錄1/
Disallow: /目錄2/
這樣的形式,不能採用/目錄1/目錄2/ 這樣的形式。
如果是阻止蜘蛛存取某一類型的文件,例如阻止抓取.jpg格式的圖片可以設定成:
User-agent: *
Disallow: .jpg$
以上是上海SEO小馬針對整個網站的robots文件的寫法,只是講的robots寫法的類型和注意事項,像針對性屏蔽蜘蛛或者是其他的具體寫法描述的少了點,但是知道allow和disallow的含義進行思考可以衍生出不少其他的寫法意義。還有針對具體網頁的robots meta網頁標籤寫法,不過一般情況下用的不是很多。
以上由上海seo小馬http://www.mjlseo.com/整理,轉載請註明,謝謝
責任編輯:揚揚作者小馬老馬的個人空間