石頭誋：神奇的robots见证网站的兴衰

作者：Eve Cole 更新時間：2011-08-02 17:09:44

很早就答應給啊彬寫一篇文章的，感謝他對我的一個幫助，但是一直到現在也沒有寫出來，前幾天看到卓少問了一個問題關於robots的問題，給大家整理了一下robots的一些情況。 robots.txt檔案放在網站根目錄下，是搜尋引擎中造訪網站的時候要查看的第一個檔案。當一個搜尋蜘蛛造訪一個網站時，它會先檢查該網站根目錄下是否存在robots.txt，如果存在，搜尋機器人就會按照該檔案中的內容來確定存取的範圍;如果該檔案不存在，所有的搜尋蜘蛛將能夠存取網站上所有沒有被口令保護的頁面。每個網站都應該有一個robots，它告訴搜尋引擎我的網站裡有哪些東西是不允許抓取的，有哪些頁面是歡迎爬行與抓取。

robots的幾種作用：

1.封鎖所有的搜尋引擎抓取訊息，如果你的網站只是你的私密性的網站，不想太多的人知道的話，可以利用robots屏蔽掉所有的搜尋引擎,例如你寫的私人部落格。你就可以把搜尋引擎全都屏蔽掉

User-agent: *

Disallow: /

2.如果你只想某一個搜尋引擎抓取你的訊息，這個時候就可以用robots進行設定,例如：我只想我的網站被百度這個收錄，而不想被別的搜尋引擎收錄。就可以利用robots進行設定

User-agent: Baiduspider

Allow:

User-agent: *

Disallow: /

3.可以利用各種通配符對網站進行相對應的調配，例如我不想網站抓取我的所有圖片，這個時候就可以運用$來進行設定。一般我們常見的圖片的格式是BMP、JPG、GIF、JPEG等格式。這時候設定就是：

User-agent: *

Disallow: /.bmp$

Disallow: /.jpg$

Disallow: /.gif$

Disallow: /.jpeg$

4.還可以利用*來屏蔽掉相關的URL，有些網站不允許搜尋引擎抓取動態位址的時候可以利用這個*通配符來進行匹配設定。一般情況下動態URL的有一個特點就是有「?」這個時候我們就可以利用這個特性來進行配對的屏蔽：

User-agent: *

Disallow: /*?*

5.如果網站改版了，整個資料夾都沒有了的時候，這個情況下就要考慮屏蔽掉整個資料夾。我們可以運用robots來對這整個的資料夾進行屏蔽，例如網站裡的ab資料夾因改版全都給刪掉了，這個時候就可以這樣子設定：

User-agent: *

Disallow: /ab/

6.如果網站裡有一個資料夾不想被收錄，但是在這個資料夾裡面有一個資訊是允許被收錄。那可以運用robots的allow來設定。例如我網站裡ab資料夾不允許搜尋引擎抓取，但是在ab資料夾裡面又有一個資訊cd是允許被抓取的，這個時候就可以運用robots進行設定：

User-agent: *

Disallow: /ab/

Allow：/ab/cd

7.可以在robots裡定義出網站地圖的位置，有利於網站的收錄。

sitemap:<網站地圖的位置>

8.有的時候你會發現我的網站裡設定了robots但是還發現其收錄了這個URL地址，這個的原因是因為這個搜尋引擎的蜘蛛是透過URL爬行到網頁的一般google抓取這樣子的URL的時候是不帶title與描述的，但是百度抓取這個URL會帶上title與描述，所以有很多有人會說我設定了robots但是沒有效果。實際情況是抓取了這個連結而沒有收錄這個頁面內容。

網站的首頁權重是最高的，權重是靠連結傳遞的，我們設定robots是為了更好的把權重傳遞給那些需要有很高權重的頁面，而有一些頁面則是不需要搜尋引擎抓取和爬行的。

責任編：陳龍作者︶ㄣ石頭誋的個人空