Robots檔案是網站和蜘蛛程式之間的「君子協議」——robots檔案不僅可以節省網站的資源,還可以幫助蜘蛛更有效的抓取網,從而提高排名。
1:只允許谷歌bot
如果要攔截除谷歌bot以外的所有爬蟲:
User-agent:*
disallow:/
Uer-agent:允許的蜘蛛名
Disallow:
2:「/folder/」和「/folder」的區別
舉個例子:
User-agent:*
Disallow:/folder/
Disallow:/folder
「Disallow:/folder/」表示攔截的是一個目錄,該目錄檔案下的所有檔案不允許被抓取,但允許抓取folder.hlml。
「Disallow:/folder」:對/folder/下的所有檔案和folder.html都不能被抓取。
3:“*”匹配任意字符
User-agent:*
表示屏蔽所有的蜘蛛。當我們做了偽靜態處理之後,會同時又動態網頁和靜態網頁,網頁內容一模一樣,視為鏡態頁面,所以我們要屏蔽掉動態的網頁,可以用*號來屏蔽動態的網頁
User-agent:*
Disallow:/?*?/
4:$匹配網址結束
如果要攔截以某個字串結束的網址,就可以使用$,例如,要攔截以.asp結束的網址:
User-agent:*
Disallow:/*.asp$
也可以開啟比較優秀的網站,看他們的robots檔案是如何書寫的,然後依照自己的需求做相應的修改。 Robots檔案可以讓蜘蛛把更多的時間花在要抓取的內容上,所以優化robots檔案是必要的。
本文來自東陽高復: http://mygaofu.com ,轉載請註明鏈接
責任編輯:揚揚作者我就愛優化的個人空