網站內的robots.txt檔案的重要性

作者：Eve Cole 更新時間：2011-05-31 17:47:51

很多網站的FTP裡你會發現一個robots.txt的文件，很多站長都只知道這個是限制蜘蛛訪問的文件，此文件究竟還有沒有其他作用呢?我們一起來學習一下。

什麼是robots文件呢?這個文件是搜尋引擎與網站之間的溝通橋樑，是兩者之間約定好的語法文件，搜尋引擎每抓取一個網站，就會先檢查這個文件，就好像開門的鑰匙一樣。如果這個文件不存在，那就代表不限制搜尋引擎的抓取。如果這個文件存在，它就會按照文件中的規定要求進行抓取。有些站長會問了，我們建立網站，肯定是需要搜尋引擎收錄的，為什麼還要限制其抓取呢?搜尋引擎在抓取過程中會搜尋全站，你的網站中可能存在一些你採集的東西，或者是類似一些沒有實質東西的頁面，那麼搜尋引擎抓取後會對你的網站的評價大打折扣，起不到SEO的效果，但是robots文件就可以告訴蜘蛛，哪些頁面不希望它去看，也間接的減少了伺服器的負載量。

這個文件有幾個需要注意的地方：

1。檔案名稱不能寫錯，而且必須小寫，後綴必須是.txt.

2。文件必須放在網站的根目錄，例如： http://www.taofengyu.com/robots.txt ，要可以存取。

3。文件內容語法要正確，一般情況下，常用的就是User-agent和Disallow:

User-agent:* 就表示允許所有搜尋引擎蜘蛛抓取和收錄，如果不想讓百度收錄你的網站，就把*換成"baiduspider"，那麼後面Disallow限制的內容就不會被百度蜘蛛抓取和收錄了。如果你要限制抓取全站，那麼Disallow檔案就要寫成“Disallow:/”，如果你要限制某個資料夾下的檔案不被抓取，那麼就寫成“Disallow:/admin/",如果你要限制抓取以admin開頭的文件，那麼就寫成”Disallow:/admin",以此類推，你要限制某個文件夾下的文件比如，你要限制抓取admin文件夾下的index.htm文件，那麼Disallow語法就寫成「Disallow:/admin/index.htm"。如果Disallow後不帶」/",就代表允許抓取和收錄網站所有頁面。

一般網站的後台管理文件，程式函數，資料庫文件，樣式表文件，範本文件，網站一些圖片等等，沒有必要讓蜘蛛抓取。

4。 robots文件中必須存在Disallow函數，這是這個文件成立的關鍵因素。

關於robots文件的一些重要性和方法大概就這些了，希望能帶給大家一點用處。

文章出自淘風羽學生用品網http://www.taofengyu.com/轉載請註明出處，尊重作者勞動

作者淘寶網兒童玩具的個人空