之前我一直强调细节的优化,是的现在的百度对网站的要求就是看你的细节做得好不好,代码、标签等等有属于细节,那么Robots也属于网站细节的一部分,做好他对我们网站有一个很大的帮助,可能有很多新站长不知道Robots是一个什么东东,下面我就给大家说几点关于Robots的操作。
一、Robots.txt的由来
我们首先要明白Robots不是一个命令或者指令,Robots是一个网站和搜索引擎的第三方协议,协议的内容就是Robots.txt里面的内容,早期在网站是用于隐私保护用的,他是存在于我们网站根目录的一个txt文件。
二、Robots.txt的作用
我们做好网站上线的时候,会有很多不可抗拒的因素被搜索引擎放出来,从而导致我们的网页的质量整体下降,导致我们网站在搜索引擎的印象变差,Robots的作用就是屏蔽这些不可抗拒的因素不让蜘蛛把他们放出来,那么我们具体应该屏蔽哪一些页面呢?
1.屏蔽一些无内容页面:给大家举个例子就了然了,例如:注册页、登陆页、购物页、发帖页、留言页、搜索首页、如果你做了404错误页面也要屏蔽。
2.屏蔽重复页面:如果我们发现我们网站有两个内容相同的页面,但是路径不同,我们就要用Robots屏蔽一个页面,蜘蛛还是会抓取但是不会放出来,我们可以在谷歌站长工具里面直接查看被拦截的页面数量。
3.屏蔽一些死链接页面
我们只屏蔽那些带有普通特征的页面就可以,蜘蛛爬取不到并不意味着蜘蛛抓取不到地址,能够抓取到地址和能否抓取到是两个概念,当然我们可以进行处理的死链接我们是不需求屏蔽的,不可以处理的比如我们该路径造成的死链接我们是需要屏蔽的。
4.屏蔽一些较长的路径:超过网址输入框的长路径我们可以用Robots屏蔽。
三、Robots.txt的使用
1.Robots.txt的建立
在本地新建一个记事本文件,把它命名为Robots.txt,然后把这个文件放到我们的根目录下,这样我们的Robots.txt就建立完成了,有些开源程序比如织梦是自带Robots的,我们修改的时候只要从根目录下载就行。
2.常见的语法
User-agent这个语法是定义搜索引擎爬取程序的。Disallow这个是禁止的意思。Allow这个是允许的意思。
我们先来认识搜索引擎抓取程序也就是蜘蛛或者机器人
百度蜘蛛我们在Robots里就写Baiduspider而谷歌机器人我们就写Googlebot
我们来介绍写法,我们的第一行是先要定义搜索引擎
User-agent: Baiduspider(特别要注意的是我们在写Robots的时候冒号后面一定要有一个空格,同时如果我们要定义所有搜索引擎我们就要用*带代替Baiduspider)
Disallow: /admin/
这句话的意思是告诉百度蜘蛛您不要来收录我网站的admin文件夹当中的网页,如果我们把admin后面的斜杠去掉这个的意思即完全变了,意思就成了告诉百度蜘蛛您不要收录我根目录里所有的admin文件夹当中的网页。
Allow意思是允许、不禁止,一般来说不会单独使用它,他会和Disallow一起使用,一起使用的目的是便于目录的屏蔽灵活的应用,更为了减少代码的使用,举个例子比如我们/SEO/文件夹中有10万个文件,有两个文件是需要抓取的,我们总不能写几万个代码那样会累够呛,我们配合起来仅需要几行就行了。
User-agent: *(定义所有搜索引擎)
Disallow: /seo/ (禁止对seo文件夹进行收录)
Allow: /seo/ccc.php
Allow: /seo/ab.html
同时允许这两个文件需要抓取收录,这样我们四行代码就解决了,有人会问是Disallow放在前面还是Allow放在前面,还是Disallow放在前面更规范。
本文由http://www.51diaoche.net原创 欢迎转载 转载请注明原作者
责任编辑:扬扬 作者 龙锋起重机械 的个人空