很多網站的FTP裡你會發現一個robots.txt的文件,很多站長都只知道這個是限制蜘蛛訪問的文件,此文件究竟還有沒有其他作用呢?我們一起來學習一下。
什麼是robots文件呢?這個文件是搜尋引擎與網站之間的溝通橋樑,是兩者之間約定好的語法文件,搜尋引擎每抓取一個網站,就會先檢查這個文件,就好像開門的鑰匙一樣。如果這個文件不存在,那就代表不限制搜尋引擎的抓取。如果這個文件存在,它就會按照文件中的規定要求進行抓取。有些站長會問了,我們建立網站,肯定是需要搜尋引擎收錄的,為什麼還要限制其抓取呢?搜尋引擎在抓取過程中會搜尋全站,你的網站中可能存在一些你採集的東西,或者是類似一些沒有實質東西的頁面,那麼搜尋引擎抓取後會對你的網站的評價大打折扣,起不到SEO的效果,但是robots文件就可以告訴蜘蛛,哪些頁面不希望它去看,也間接的減少了伺服器的負載量。
這個文件有幾個需要注意的地方:
1。檔案名稱不能寫錯,而且必須小寫,後綴必須是.txt.
2。文件必須放在網站的根目錄,例如: http://www.taofengyu.com/robots.txt ,要可以存取。
3。文件內容語法要正確,一般情況下,常用的就是User-agent和Disallow:
User-agent:* 就表示允許所有搜尋引擎蜘蛛抓取和收錄,如果不想讓百度收錄你的網站,就把*換成"baiduspider",那麼後面Disallow限制的內容就不會被百度蜘蛛抓取和收錄了。如果你要限制抓取全站,那麼Disallow檔案就要寫成“Disallow:/”,如果你要限制某個資料夾下的檔案不被抓取,那麼就寫成“Disallow:/admin/",如果你要限制抓取以admin開頭的文件,那麼就寫成”Disallow:/admin",以此類推,你要限制某個文件夾下的文件比如,你要限制抓取admin文件夾下的index.htm文件,那麼Disallow語法就寫成「Disallow:/admin/index.htm"。如果Disallow後不帶」/",就代表允許抓取和收錄網站所有頁面。
一般網站的後台管理文件,程式函數,資料庫文件,樣式表文件,範本文件,網站一些圖片等等,沒有必要讓蜘蛛抓取。
4。 robots文件中必須存在Disallow函數,這是這個文件成立的關鍵因素。
關於robots文件的一些重要性和方法大概就這些了,希望能帶給大家一點用處。
文章出自淘風羽學生用品網http://www.taofengyu.com/轉載請註明出處,尊重作者勞動
作者淘寶網兒童玩具的個人空