-
robots.txt是搜尋引擎蜘蛛爬你網站的時候第一個查看的文件,這個文件是告訴搜尋引擎的蜘蛛程序,你的網站上哪些文件給看,哪些不給看。現在主流的搜尋引擎還是遵守這項規定,合肥SEO就有深刻體會,本站是20號晚上11點左右解禁robots.txt檔案允許搜尋引擎蜘蛛訪問,21號早上一查百度居然收了,第二天谷歌也收了。
說遠了,言歸正傳。 robots.txt是一個文字文件,它必須命名為「robots.txt」並上傳到網站根目錄下,上傳到子目錄裡是無效的,因為搜尋引擎漫遊器只會在你的網域根目錄中找到這個文件。還是那句話,基礎性知識合肥SEO沒有實力也沒必要在這浪費大家的時間,可以去百度搜尋幫助中心和谷歌中文管理員博客看,在這是主要從SEO角度來介紹robots.txt在對網站優化過程中的作用。
一、利於網站優化的robots.txt使用技巧
1.線上建站提供方便之路。當我們將網域解析到伺服器,可以存取網站了,可是這個時候網站還沒有佈局好,meta標籤還一塌糊塗。乳溝此時的站點被搜尋引擎蜘蛛抓取收錄了,到時再更改就很不利於SEO優化。這時就可以利用robots.txt檔案來設定所有搜尋引擎蜘蛛不允許查詢網站的所有內容。其語法格式為:
User-agent: *
Disallow: /
2.客製化搜尋引擎蜘蛛抓取指定內容,能讓你根據網站狀況來選擇怎樣和搜尋引擎打交道。這裡有兩層意思。
(1)定制搜尋引擎。如果你不屑度娘的所作所為的話,可以這樣子讓它只能對你吹鬍子瞪眼。其語法格式為:
User-agent: baiduspider
Disallow: /
註:常見的搜尋引擎機器人名稱。
名稱 搜尋引擎
Baiduspider http://www.baidu.com
Scooter http://www.altaVista.com
ia_archiver http://www.Alexa.com
Googlebot http://www.google.com
FAST-WebCrawler http://www.alltheweb.com
Slurp http://www.inktomi.com
MSNBOT http://search.msn.com
(2)客製化網站內容。也就是說你可以指定某個目錄允許spider爬行,某個目錄禁止spider爬行。如所有搜尋引擎蜘蛛,允許抓取目錄abc下的內容,禁止抓取目錄def下的內容,其語法格式為:
User-agent: *
Allow: /abc/
Disallow: /def/
3.引導搜尋引擎抓取網站內容。這裡最典型的做法有
(1)引導蜘蛛抓取你的網站地圖。其語法格式為:
User-agent: *
sitemap:sitemap-url
(2)防止蜘蛛抓取你的網站重複內容。
4、404錯誤頁面問題。如果你的伺服器自定應了404錯誤頁面而在你網站根目錄沒有配置robots.txt文件,那麼搜尋引擎蜘蛛會將其視為robots.txt文件,這將影響搜尋引擎對你網站頁面的收錄。
二、特定程式建置站robots.txt的寫法。這裡只是提供通用的,具體的情況自己斟酌哦。
1.DedeCMS建站的robots.txt檔案寫法
User-agent: *
Disallow: /plus/feedback_js.php
Disallow: /plus/feedback.php
Disallow: /plus/mytag_js.php
Disallow: /plus/rss.php
Disallow: /plus/search.php
Disallow: /plus/recommend.php
Disallow: /plus/stow.php
Disallow: /plus/count.php
Disallow: /include
Disallow: /templets
Disallow: /member
2、WordPRess建站的robots.txt檔案寫法
User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /?s=
Sitemap: http://www.***.com/sitemap.xml
3.phpcms建站的robots.txt檔案寫法
User-agent: *
Disallow: /admin
Disallow: /data
Disallow: /templates
Disallow: /include
Disallow: /languages
Disallow: /api
Disallow: /fckeditor
Disallow: /install
Disallow: /count.php
Disallow: /comment
Disallow: /guestbook
Disallow: /announce
Disallow: /member
Disallow: /message
Disallow: /spider
Disallow: /yp
Disallow: /vote
Disallow: /video
4、discuz論壇的robots.txt檔案寫法
User-agent: *
Allow: /redirect.php
Allow: /viewthread.php
Allow: /forumdisplay.php
Disallow: /?
Disallow: /*.php
雖然話題很陳舊,可是需要學習的內容還是很多的。有人說設定robots.txt檔案會帶來被「有心人」攻擊的危險,作為草根的前鋒來說無所畏懼了,既然是「有心人」了你也沒轍(這不只是建站程式本身,還有伺服器安全等等等等)。來自合肥seo: http://www.anhuiseo.org轉載請註明出處。
感謝qhpf298 的投稿