很早就答應給啊彬寫一篇文章的,感謝他對我的一個幫助,但是一直到現在也沒有寫出來,前幾天看到卓少問了一個問題關於robots的問題,給大家整理了一下robots的一些情況。 robots.txt檔案放在網站根目錄下,是搜尋引擎中造訪網站的時候要查看的第一個檔案。當一個搜尋蜘蛛造訪一個網站時,它會先檢查該網站根目錄下是否存在robots.txt,如果存在,搜尋機器人就會按照該檔案中的內容來確定存取的範圍;如果該檔案不存在,所有的搜尋蜘蛛將能夠存取網站上所有沒有被口令保護的頁面。每個網站都應該有一個robots,它告訴搜尋引擎我的網站裡有哪些東西是不允許抓取的,有哪些頁面是歡迎爬行與抓取。
robots的幾種作用:
1.封鎖所有的搜尋引擎抓取訊息,如果你的網站只是你的私密性的網站,不想太多的人知道的話,可以利用robots屏蔽掉所有的搜尋引擎,例如你寫的私人部落格。你就可以把搜尋引擎全都屏蔽掉
User-agent: *
Disallow: /
2.如果你只想某一個搜尋引擎抓取你的訊息,這個時候就可以用robots進行設定,例如:我只想我的網站被百度這個收錄,而不想被別的搜尋引擎收錄。就可以利用robots進行設定
User-agent: Baiduspider
Allow:
User-agent: *
Disallow: /
3.可以利用各種通配符對網站進行相對應的調配,例如我不想網站抓取我的所有圖片,這個時候就可以運用$來進行設定。一般我們常見的圖片的格式是BMP、JPG、GIF、JPEG等格式。這時候設定就是:
User-agent: *
Disallow: /.bmp$
Disallow: /.jpg$
Disallow: /.gif$
Disallow: /.jpeg$
4.還可以利用*來屏蔽掉相關的URL,有些網站不允許搜尋引擎抓取動態位址的時候可以利用這個*通配符來進行匹配設定。一般情況下動態URL的有一個特點就是有「?」這個時候我們就可以利用這個特性來進行配對的屏蔽:
User-agent: *
Disallow: /*?*
5.如果網站改版了,整個資料夾都沒有了的時候,這個情況下就要考慮屏蔽掉整個資料夾。我們可以運用robots來對這整個的資料夾進行屏蔽,例如網站裡的ab資料夾因改版全都給刪掉了,這個時候就可以這樣子設定:
User-agent: *
Disallow: /ab/
6.如果網站裡有一個資料夾不想被收錄,但是在這個資料夾裡面有一個資訊是允許被收錄。那可以運用robots的allow來設定。例如我網站裡ab資料夾不允許搜尋引擎抓取,但是在ab資料夾裡面又有一個資訊cd是允許被抓取的,這個時候就可以運用robots進行設定:
User-agent: *
Disallow: /ab/
Allow:/ab/cd
7.可以在robots裡定義出網站地圖的位置,有利於網站的收錄。
sitemap:<網站地圖的位置>
8.有的時候你會發現我的網站裡設定了robots但是還發現其收錄了這個URL地址,這個的原因是因為這個搜尋引擎的蜘蛛是透過URL爬行到網頁的一般google抓取這樣子的URL的時候是不帶title與描述的,但是百度抓取這個URL會帶上title與描述,所以有很多有人會說我設定了robots但是沒有效果。實際情況是抓取了這個連結而沒有收錄這個頁面內容。
網站的首頁權重是最高的,權重是靠連結傳遞的,我們設定robots是為了更好的把權重傳遞給那些需要有很高權重的頁面,而有一些頁面則是不需要搜尋引擎抓取和爬行的。
責任編:陳龍作者︶ㄣ石頭誋的個人空