最新發現,百度蜘蛛(Baiduspider)是笨蛋!最近發現網站百度收錄的很慢,基本上是過幾天重新快照下首頁,其它頁面基本上不收錄!鬱悶!實在鬱悶!打開網站IIS log,查了下百度蜘蛛,大驚!有重大發現:百度蜘蛛真是個笨蛋!
一、先看看百度蜘蛛是怎麼笨死的。以下是百度蜘蛛在我網站上的活動記錄。
1、2009-06-03 21:26:05 W3SVC962713505 218.60.130.19 GET /robots.txt - 80 - 123.125.64.15 Baiduspider+(+http://www.bdu.註:404表明未找到robots.txt)
2、2009-06-03 21:26:49 W3SVC962713505 218.60.130.19 GET /index.asp - 80 - 123.125.64.15 Baiduspider+(+http://www.bbdu.com/search註:200表明找到首頁文件index.asp)
由此可以看出,百度蜘蛛的活動,先到網站找robots.txt 這個文件,如果沒有則找到網站首頁index.asp,和百度目前收錄的首頁對比後發現和原來沒變化,然後走了。和廣大站長一樣,誰不想自己被百度收錄的頁面時不時的快照更新下?看來只有先完善robots.txt ,牽著百度蜘蛛到我站上到處跑了。
二、書寫robots.txt ,帶百度到你站上四處逛逛。
robots.txt 這個檔案必須寫。具體怎麼寫大家都懂吧?不會的話我再重複下
範例1. 禁止所有搜尋引擎造訪網站的任何部分
User-agent: *
Disallow: /
例2. 允許所有的robot訪問
(或者也可以建造一個空白文件"/robots.txt")
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
(桌子註:這個必須的,不要建空文件,那是百度在放煙。最好寫下面一句。)
範例3. 僅禁止Baiduspider造訪您的網站
User-agent: Baiduspider
Disallow: /
範例4. 僅允許Baiduspider存取您的網站
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
範例5. 禁止spider存取特定目錄
在這個例子中,該網站有三個目錄對搜尋引擎的存取權做了限制,即robot不會存取這三個目錄。要注意的是對每一個目錄必須分開聲明,而不能寫成"Disallow: /cgi-bin/ /tmp/"。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例6. 允許存取特定目錄中的部分url
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例7. 使用"*"限制存取url
禁止存取/cgi-bin/目錄下的所有以".htm"為後綴的URL(包含子目錄)。
User-agent: *
Disallow: /cgi-bin/*.htm
例8. 使用"$"限制存取url
僅允許存取以".htm"為後綴的URL。
User-agent: *
Allow: .htm$
Disallow: /
例9. 禁止造訪網站中所有的動態頁面
User-agent: *
Disallow: /*?*
例10. 禁止Baiduspider抓取網站上所有圖片
僅允許抓取網頁,禁止抓取任何圖片。
User-agent: Baiduspider
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
例11. 僅允許Baiduspider抓取網頁和.gif格式圖片
允許抓取網頁和gif格式圖片,不允許抓取其他格式圖片
User-agent: Baiduspider
Allow: .gif$
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .png$
Disallow: .bmp$
例12. 僅禁止Baiduspider抓取.jpg格式圖片
User-agent: Baiduspider
Disallow: .jpg$
看看桌子自己寫的robots.txt,大家參考
複製程式碼
User-agent: *
Disallow: /admin/
Disallow: /Soft/
Allow: /images/
Allow: /html/
Allow: .htm$
Allow: .php$
Allow: .asp$
Allow: .gif$
Allow: .jpg$
Allow: .jpeg$
Allow: .png$
Allow: .bmp$
Allow: /
解釋:
1、允許各種搜尋引擎索引
2.禁止索引/admin目錄,這裡是網站的後台,當然禁止了
3.禁止/soft等重要安全目錄
4、允許存取/images目錄
5、允許存取/html目錄
6、允許存取所有htm,php,asp,html文件
7.允許抓取gif,jpg,jpeg,png,bmp格式的圖片
8.允許抓取網站根目錄下的檔案。
好了,把你的robots.txt傳到網站跟目錄下等百度蜘蛛再來吧。到時候有這個好嚮導會帶著那個笨蛋到你站上到處走走的。本文作者桌子,由MOFHOT外貿服裝批發網www.mofhot.com 蒐集發布,請A5留個連接謝謝~發個文章也不容易的。