很多网站的FTP里你会发现一个robots.txt的文件,很多站长都只知道这个是限制蜘蛛访问的文件,此文件究竟还有没有其他作用呢?我们一起来学习一下。
什么是robots文件呢?这个文件是搜索引擎与网站之间的沟通桥梁,是两者之间约定好的语法文件,搜索引擎每抓取一个网站,就会先检查这个文件,就好像开门的钥匙一样。如果这个文件不存在,那么就代表不限制搜索引擎的抓取。如果这个文件存在,它就会按照文件中的规定要求进行抓取。有些站长会问了,我们建立网站,肯定是需要搜索引擎收录的,为什么还要限制其抓取呢?搜索引擎在抓取过程中会搜索全站,你的网站中可能存在一些你采集的东西,或者是类似一些没有实质性东西的页面,那么搜索引擎抓取后会对你的网站的评价大打折扣,起不到SEO的效果,但是robots文件就可以告诉蜘蛛,哪些页面不希望它去看,也间接的减少了服务器的负荷量。
这个文件有几个需要注意的地方:
1。文件名称不能写错,而且必须小写,后缀必须是.txt.
2。文件必须放在网站的根目录,比如:http://www.taofengyu.com/robots.txt,要可以访问。
3。文件内容语法要正确,一般情况下,常用的就是User-agent和Disallow:
User-agent:* 就表示允许所有搜索引擎蜘蛛抓取和收录,如果不想让百度收录你的网站,就把*换成"baiduspider",那么后面Disallow限制的内容就不会被百度蜘蛛抓取和收录了。如果你要限制抓取全站,那么Disallow文件就要写成“Disallow:/”,如果你要限制某个文件夹下的文件不被抓取,那么就写成“Disallow:/admin/",如果你要限制抓取以admin开头的文件,那么就写成”Disallow:/admin",以此类推,你要限制某个文件夹下的文件比如,你要限制抓取admin文件夹下的index.htm文件,那么Disallow语法就写成“Disallow:/admin/index.htm"。如果Disallow后不带”/",就代表允许抓取和收录网站所有页面。
一般网站的后台管理文件,程序函数,数据库文件,样式表文件,模板文件,网站一些图片等等,没有必要让蜘蛛抓取。
4。robots文件中必须要存在Disallow函数,这是这个文件成立的一个关键因素。
关于robots文件的一些重要性和方法大概就这些了,希望能给大家带来一点用处。
文章出自淘风羽学生用品网 http://www.taofengyu.com/ 转载请注明出处,尊重作者劳动
作者 淘宝网儿童玩具 的个人空