我们知道有很大一部分的站长寻找一种不让蜘蛛在自己网站上爬行自己网页的方法,也同样通过使用robot.txt文件做到了这点。虽然这确实是一个很好的实践行为,但问题也同样呈现出来:在对使用robot.txt阻止Google/Yahoo!/MSN或者一些其他的搜索引擎的蜘蛛爬行时的疑惑!下面的简要的说明:
通过Robots.txt来阻止抓取:一些URL地址不想被访问,但是仍然可以抓取并出现在搜索引擎的结果页面。
通过META标签的NoIndex来阻止:可以访问,但是不想被抓取,在搜索结果中也不想被列出来。
通过禁止顺着页面上的链接继续抓取来阻止:这不是一个很明智的举动,因为有一些其他的链接任然希望通过抓取页面来索引它!(如果你不在乎这会浪费蜘蛛在你页面上检索的时间的话那你也可以这样做,但是不要认为这样做就会让它不出现在搜索引擎的结果页面)
下面给个简单的例子虽然在robot.txt里面限制了蜘蛛的抓取但是仍然会出现在Google的搜索结果中。
(robot.txt文件同样对子域有效)
我们可以看到这个about.com的/library/nosearch/文件已经被屏蔽了,下图所示当我们在Google里搜索这个文件里的URL地址的结果:
注意看Google依然有2,760个搜索结果在所谓的被组织的目录下。它们没有抓取这些页面,所以看见的只有简单的一个链接地址,没有描述没有标题,因为Google看不见这些页面的内容。
让我们在进一步的设想,如果你有很大一个数量的网页不想被搜索引擎抓取,但是这些URL地址还是会被计算在内,并累计流量等其他一些不为人知的独立的排名因素,但是它们并不能顺着这个链接继续爬下去,因此从它们那里倒出的链接永远不可能被看到,请看下图:
这里有两个便捷的方法:
1. 节省这些链接数据流通过当链接到robot.txt里面禁止的的目录时使用nofollow命令。
2. 如果你知道这些被禁止的页面有哪些固定的链接流(特别是外链带来的),可以考虑下使用meta的noindex,follow来代替,这样蜘蛛就会跳过这些链接流,以便节省时间去检索更多你网站里需要它的页面!
本文来自reamo个人SEO技术,网络推广博客:http://www.aisxin.cn转载请注明出处。