搜索引擎抓取页面,不是和人一样,从网页上去看页面,而是从这个页面的代码去看!鼠标右键,查看源文件,我们就可以看到改网页的HTML代码,这就是蜘蛛要读取的内容,从开始读取到最后。也有人说,是从页面的上到下,左到右的读取的,我觉得更科学的讲应该是从HTML代码的前面一直读取到最后!
为什么要精简代码?
蜘蛛是读取代码从上面到下面,如果你有很多的和正文无关的代码,蜘蛛首先要读取,蜘蛛能力有限,可能还没有读到正文,就已经累的离开了,就这样的情况,更谈不上排名了,你必须知道蜘蛛能力有限,我们不要为难蜘蛛,用最精简的代码,让正文及早体现出来,让蜘蛛成功抓取。
如何精简代码?
1)精简代码一般来说,我们的页面采用DIV+CSS,很多人说用DIV+CSS有利于SEO,这句话我赞同,但是用了DIV比TABLE排名一定好,这是无稽之谈!因为用DIV+CSS的最重要的是精简代码,有利于搜索引擎抓取!
2)无关代码的外置
比如我们的CSS代码,应该采用CSS外置,以及一些广告代码,特效代码都采用JS外置! 在网页代码里调用就可以了,这就大大精简了网页代码。
3)内页的头部信息
在网站的内页,比如文章页面,频道页面,其实头部信息(LOGO,顶部广告,顶部搜索框),这些对于这个文章页面来说都是无关信息,都可以调用出去,让你的正文在代码里更加靠前。当然你要保证基本的导航,比如返回首页,各个栏目的链接,以及最新文章、相关文章,热门文章等内部链接都要保障,但是我觉得这些代码要在正文下面,文章页面首先体现的应该是文章的标题,内容。。其次才是这些相关的链接信息。这样就大大精简了网站的代码,有利于内页在长尾关键字的竞争!
4)程序自身产生的冗余代码
尤其是.NET编写的程序,会自动很多冗余的垃圾代码,这些代码不仅仅大大降低的网页的速度,也同样被让蜘蛛累到趴下,蜘蛛是模拟人的行为的,曾经在我们公司的网站就曾经出现过,程序员编写的.NET,导致网页产生大量的冗余代码,当时一个马虎没有留意,后来导致这一批页面不仅速度拖慢,之后被百度在搜索引擎全部删除,因为大量的冗余代码,让这一批网页出现了页面相似度的问题,而导致百度删除结果,之后马上解决了。所以这些问题我们一定要非常非常的注意!
先总结这4点,总而言之,言而总之,我们的网页代码要十分精简,无关内容外置,网页主体内容提前,相关内容滞后,要了解每张网页的使命。比如对于文章页面来说,上面的LOGO等顶部信息就是多余代码,应该外置只要参考这个原则去精简代码就可以。
作者: 戴仁光@黑色幽默
博客地址: http://www.dairenguang.com
本文地址:http://www.dairenguang.com/note/20090720535.htm
版权所有 转载时必须以链接形式注明作者和原始出处及本声明。