像谷歌等搜索引擎有一个问题。他们称之为“重复内容”。你的内容展示在网站各个不同页面,他们不知道该展示那个地址。尤其是当人们链接到你所有的不同版本的内容时,这个重复内容会更严重。这篇文章旨在让你了解造成重复内容的不同原因,然后找出各个的解决之道。
重复内容原因
1、误解URL概念
2、session ID‘s
3、URL 跟踪参数
4、内容搜刮&内容聚合
5、参数顺序
6、评论分页
7、打印页面
8、www vs. 无www
概念上的解决方法 “canonical”标签
1、识别重复内容
2、谷歌网站管理员工具
3、搜索指令查询title
解决重复内容的实践操作
1、避免重复内容
2、301重定向
4、使用rel=“canonical”标签
5、链接链向原始内容
总结:重复内容是可以解决的也应该解决
你可以把重复内容比作你站在你一个十字路口,道路标志上有两个不同方向都指向同一个目的地,究竟该走哪一条路?更有甚者在当你的目的地不一样时,情况会更糟糕。作为一个读者,不会管内容从哪里来,但是搜索引擎不得不挑选一个展示在搜索结果中,因为他们不想把同样的内容展示两次。
比方说,关于关键词X的内容展示在http://www.example.com/keyWord-x/这个URL上,同样的内容也出现在http://www.example.com/article-category/keyword-x/上,这种情况可不是虚构的哦,在很多cms系统中都存在这个问题。比如你的文章已经被一些网友收藏转载了,一些人链向你的第一个URL,一些人链向你的第二个URL。这时重复内容问题就来啦。如果所有关于这个关键字的链接都指向一个URL的话,关键词在首页的几率也会高很多。
重复内容起因
有很多因素可以导致重复内容。绝大部分都是技术上的,一个人决定把同样的内容放在两个不同的地方,并不指出原始出处这种情况不是很常见,绝大部分人都会觉得不舒服。技术上的理由也是很充分。它产生的绝大部分原因是程序员没有站在浏览器或者用户角度,也没管搜索引擎蜘蛛,只是按照程序员的思维。假设之前提到的那篇文章它出现在http://www.example.com/keyword-x/ 和 http://www.example.com/article-category/keyword-x/? 如果你问程序员,他会说它是仅出现一次啊。
误解URL的概念
那么程序员都疯了吗?不,没有,他只是再说另一种语言。你看到的整个网站可能都是数据库驱动的。在那个数据库里面,只有一篇文章,网站程序允许数据库中的一篇文章可以通过不同的URL访问得到。因为在程序员眼里,唯一的标志是数据库中的文章只有唯一的ID,而不是URL。对于搜索引擎,URL才是一篇文章的唯一识别符。如果你这样跟你的程序员说,他才会意思到问题原因,接着他会像与我共事的大部分程序员一样,想搜索引擎愚蠢在哪里以及为什么他不能解决这个问题。如此他又走向另一个错误的思维。
Session ID
你常想着去追踪你的访问者的轨迹,比如存储他们在购物车购买的物品。要做到这一点,你必须给他们一个session(会话)。一个session会话基本上是访客在你网站所做的简短历史,可能包含内容比如购物车里面的物品。为了保持访客从点击一个网页到另一个网页的会话session,需要存储子某个地方。最常见的解决方法是cookies,然而搜索引擎通常不会存储cookies。
在这一点上发生了什么,一些网站系统在URL中使用session ID来返回。在这一点上每个网站上的内部链接都会被追加上session ID,而session ID又是唯一的,这样产生了新的URL,因此重复内容产生了。
使用追踪和排序的URL参数
另一个引起重复内容的原因是URL参数的使用,虽然参数不会改变页面内容,比如在跟踪链接里面。你会看到 http://www.example.com/keyword-x/ 和 http://www.example.com/keyword-x/?source=rss等对搜索引擎来说都不是同样的URL。后者可能是允许你跟踪来源,它可能会使你的排名变得有点困难,一个非常不好的负面效果。
这个不仅适用于跟踪参数,它还适用每一个你加在URL后面的参数不会改变你网页上的实际内容。涉及到参数会改变网页上产品的顺序或者展示另外一个sidebar这些都会导致重复内容。
内容搜刮和内容聚合
虽然引起重复内容的绝大部分原因在于你自己,或者至少是你网站的过失,有时是其他网站有没有经你同意使用你的内容。他们并不总是链向你的原始内容,搜索引擎也不知道就会不得不处理你的同样文章的另外版本。
你的网站越来越流行,遇到的搜刮也越来越多,问题也会越来越严重。
参数顺序
另一个较常见的原因就是cms不会使用简洁干净的URL,而是使用比如 /?id=1&cat=2,这里的ID指示文章,cat指示分类。在大部分的建站系统中,这个URL /?cat=2&id=1 也将会渲染同样的内容,但是对搜索引擎来说他们就是完全不同的。
评论分页
在wordPRess系统或者其他程序里面会有一个评论分页的选项。这将会导致文章内容在 文章本身的URL 还有文章的URL+/comment-page-1/, /comment-page-2/ 等的重复。
打印页面
如果你的cms会产打印页面而且从你的文章页面还有链接,在绝大部分情况下谷歌会发现这些页面,除非你特别阻止他们。谷歌该展示那一个版本?一个有广告和周边内容的页面或者一个只有你文章的页面。
WWW vs. non-WWW
这是一个最老的问题了,但是当两个版本都可以访问时,有时搜索引擎还是会混淆WWW vs. non-WWW重复内容。
一个不常见的情形还有就是http vs https 重复内容。
概念上的解决方法 “canonical”标签
正如上面确定的,不同的URL产生同样的内容会导致重复内容是一个问题,但是它可以被解决的。人类在发表文章时通常可以很容易地告诉你某个文章的正确的URL应该是什么。搞笑的是有时你问同一公司的3个人会得到3个不同的答案。
总结:重复内容是可以解决的也应该解决
在这些情形中问题需要解决,因为在最后只能有一个URL。文章正确的URL可以被搜索引擎命名的Canonical。
识别重复内容
你可能不知道你网站上是否有重复内容。就让我来给你一些方法。
谷歌网站管理员工具
谷歌网站管理员工具是一个很好的识别重复内容的工具。如果你转到谷歌网站管理员工具查看你的网站,检查诊断——》HTML建议,你就看到这样的
如果页面有重复的title或者重复描述的话,那里几乎没有什么好事情。点击它会显示那些URL有重复标题或者描述将帮助你识别出问题。问题是如果你有一篇文章关于“keyword -X”显示在两个分类里面,他们的title可能会不一样。比如他们的标题会是“Keyword X - Category X - Example Site” 和 “Keyword X - Category Y - Example Site”。 谷歌不会把他们作为重复标题,但是你可以通过搜索找到他们。
查找title或者其他片段
有几个搜索运算符在这种情况下是非常有帮助的。如果你想找到你网站上包含你的关键字“X”文章的所有URL,你可以输入在谷歌搜索框中输入以下指令:
site:example.com intitle:"Keyword X”
复制代码
谷歌将会展示你在example.com上所有页面包含那个关键词的。你搜索title部分的关键词越具体,也越容易找到重复内容并清除他们。你也可以使用同样的方法来识别别人网站上有没有你的重复内容。比如说,你文章的完整title是Keyword X - why it is awesome,你可以搜索
intitle:"Keyword X - why it is awesome”
复制代码
谷歌会返回所有网站上包含这个title的。有时你也可以搜索你文章中的一两个句子,因为有些内容搜刮 的人可能会改掉你的title。在某些情况下,当你搜索的时候,谷歌可以会在结果最后显示如下的提示:
这就是一个信号说谷歌已经删除了重复的数据结果。这显然是不好的,你可以继续点击进去查看其他的结果来看是否有助于你解决这些问题。
解决重复内容的实践操作
一旦你决定那个URL是你文章该规范化的URL,你就不得不开始一些规范化的过程(好的我知道我很啰嗦已经说了好几遍了)。这基本上意味着让搜索引擎知道和让他尽快发现这个规范化版本。这里有四个解决这个问题的方法:
1、不要产生重复内容
2、把重复内容重定向到规范化的URL
3、在重复页面添加一个link Canonical标签
4、在重复内容页面添加一个超链接到规范化的URL
避免重复内容
对于上述引起重复的内容的原因有些很简单的方法修复他们
1、URL中的session ID?
通常你可以你的系统设置里面取消
2、有打印页面
这些都完全没有必要,你可以使用print 样式表
3、在wordpress中使用评论分页
这个问题你可以在设置里面取消评论分页嘛
4、参数的不同顺序
告诉你的程序员建立一个代码来在同样的顺序上排序(这里通常指代的是URL factory)
5、跟踪参数问题
大部分情况下你可以使用hash值#号来代替参数跟踪营销活动
6、WWW vs non-WWW问题
选择你想要的版本并重定向一下坚持下去。你可以在谷歌网站管理员工具里面设置。
如果您的问题不是那么容易解决,它可能仍然是值得的付出努力来防止出现完全重复的内容。以上就是迄今为止最好的解决办法。
301重定向重复内容
在某些情况下,不可能完全阻止你使用的系统文章内容产生错误的URL,但是你是可以重定向他们的。如果这个对你不符合逻辑(我能够理解)你千万要记住在跟你的程序员说的时候。此外,如果你解决了重复内容问题,确保你把所有老的重复内容URL重定向到合适的规范化URL。
使用rel=“Canonical”
有时你不想去或者不能解决文章的重复问题时,但是你必须知道这是错误的URL。对于这个特殊的问题,搜索引擎也引进了这个
Canonical 元素。它放置在您网站上的一部分看起来像这样:
<link rel="canonical" href="http://example.com/keyword-x/"/>
在这个Canonical link标签里面的href部分你放置文章正确规范化的URL,当谷歌或者其他支持这个属性的搜索引擎发现了这个link元素,它会做一个软的301跳转:它也会传递这个网页的大部分链接价值到你的规范化URL。
这个过程会比301跳转慢,所以你使用301的话将更可取Google‘s John Mueller提到http://www.seroundtable.com/google-canonical-tag-vs-301-redirect-12611.html
链回到你的原始版本
如果你不能做到上面这些的话,可能你不能控制内容展示网站上的《head》部分,在页面顶部或者底部添加一个链接指向你的原始页面也是个不错的主意。还有一些其他的你想在你的RSS feed中添加一个链接指向你的文章。一些搜刮者可能会过滤掉这些链接,但是一些可能会留在那里,如果谷歌计算到好几个链接指向你的文章它也会很快知道这就是确切的规范化文章版本。
总结:重复内容是可以解决的也应该解决
重复的内容无处不在发生。我还没有遇到超过1000页面的网站没有一点重复内容。这件事需要你在任何时候保持关注。这是可以解决的而且回报会很多。在解决了重复内容之后你的高质量内容网页排名可能会飙升。当然首先你要识别确定这些问题,帮助你的程序员想出解决问题的方案甚至帮你解决问题。
译文作者:zhipeng
文章来源:光年论坛(http://www.gnbase.com/thread-474-1.html)
英文原文:http://yoast.com/articles/duplicate-content/
注明:文章由光年论坛zhipeng授权于站长之家转载。如需转载,请注明文章出处和链接。