2010年4月13日,在百度贴吧站长俱乐部中,知名华人SEO专家ZAC在“代人提问原创内容不能被识别”帖子中发问道:“自己的原创内容排名常常比不过转载或抄袭的,站长能做些什么预防或改进?我的站每天都更新原创内容,而百度每天也都更新,但是其他人的转载被收录了以后,我的文章就搜索不到了。我坚持了近4个月的原创,但百度仍然把我扔到了500多位!”
两年前ZAC代表站长就原创收录问题与代表百度的Lee之对话
两年多过去了,上面提问中所陈述情况依旧毫无改观,甚至越发恶化,各种“复制采集伪原创”有价值原创内容页面轻易地被百度网页搜索以关键词索引方式推荐给搜索网友,而原创内容首发网站却名落孙山。这在客观上纵容了那种瞄准百度缺陷,以“复制采集伪原创”为基础所谓SEO的不断泛滥。
不出所料的是,在今年8月10日的百度“站长门诊开放日”活动中,原创识别问题又成为了各位站长、SEOER不断向百度搜索工程师Lee追问的问题。
同样不出所料的是,百度搜索工程师Lee的回答仍是两年前回答“这个,只能说百度的策略还不是很完善,我们也一直在改进”的翻版——“我们正在设计一套较完善的原创识别算法”。
而关注百度动态的人士可以很轻易地就发现,百度Lee“我们正在设计一套较完善的原创识别算法”的回答完全就是对7月2日百度网页搜索反作弊团队《针对低质量站点的措施已经生效》“打击低质网站(伪原创与无原创网站)措施已经生效”的全面否定——大家还记得,当时《针对低质量站点的措施已经生效》中气宇轩昂地说道:“对提供优质、原创资源的站长来说,因为我们降低甚至清除了低质量站点的排名,你们将从百度得到更多的流量”。
但不到两个月之后,百度搜索工程师Lee的回答就完全否定了百度网页搜索反作弊团队的说法,这真的让人大跌眼镜。
并且,时隔两年两次面对“原创内容”识别提问,百度Lee都采取了“环顾左右而言他”的方法敷衍应付:两年前Lee的回答为“从用户体验角度,有些转载未必比原创差……只是国内的转载,很多是掐头去尾,使原创者比较受伤”,更多针对的是国内转载不规范的问题;而今年百度Lee的回答则是:“(百度接到的声称自己是原创投诉)80%多都是无效的,甚至大量声称老中医3-5天治愈绝症的网站,通篇内容读不通,声称自己是高质量的网站”。
无可否认,Lee所说的都是事实,但真实的细节累加并不等于真实的整体,这些普遍情况的真实存在并不等于中国网络界就没有高质量原创内容存在,更不是百度无法识别网站原创首发的理由。俗话说“没有金刚钻,别搅瓷器活”,百度Lee这样的表态只能证明百度的原创识别与去除重复页面能力没有丝毫进步。
必须强调的是,了解识别原创页面能力差是所有搜索引擎的软肋之后,许多草根原创者都在文章末尾处添加了版权说明标注首发网址,同时以高质量行业网站投稿的“内容同步”方式引导搜索引擎及转载站长——虽然所获得链接更多的是纯文本链接,但百度搜索工程师Lee所说“我们把问题明确一下:是否能识别和处理纯文本形式的链接(非标签)?答案是可以的,搜索引擎的spider需要及时发现和抓取互联网上的链接,至于链接是什么形式,并不重要”给了他们信心。
可让这些站长们大失所望的是,就在大量业内权威投稿转载网站没有百度Lee所说“掐头去尾转载”,且高权重投稿或转载网站网页生成及被搜索引擎收录时间明显早于“复制采集伪原创”网站的情况下,还是出现了大量原创首发页面被百度忽略,“复制采集伪原创”网站排名居高不下——其中很多页面还是随便截取文章一部分,没有完整表达文章主题,根本无法达到百度所标榜之“更好的用户体验”标准。
必须看到的是,虽然原创页面的识别认定一直都是搜索引擎的软肋,但并不是所有搜索引擎面对众多高权重URL指向原创首发页面的表现都如同百度们一样糟糕。正如国内知名SEOER王通所言,在同样面对中国网络“复制采集伪原创”泛滥的情况下,对于有版权声明网址指引的原创首发页面(加之发布时间、链接普遍性及链接网站页面权重等标准),谷歌就没有出现号称“最懂中文”的百度那样一败涂地的情况——相关搜索靠前位置大片被复制采集伪原创页面占领,原创首发页面无影无踪现象。
这说明,“最懂中文”的百度在关键词索引将网址推荐给搜索网友之前,必须完成的原创识别工作与去除重复页面工作(以甄别确定重点推荐的高质量信息页面及重要补充页面)基本没有完成——原因是技术水平十分低下,急亟迎头赶上,而百度Lee的说法只不过是不断地为百度寻找托词。
而且,相比之下,谷歌识别原创首发地址更良好的表现证明,百度并不在乎原创首发页面,它在乎的只是更多原创内容——却缺乏应有的版权意识,本人认为,这正是百度长期以来识别原创网站算法落后的最主要原因,“非不能也,是不为也”。
无怪乎,国内知名SEOER王通“百度628调整,就是为了打击原创网站”的言论一出,许多站长、SEOER于心有戚戚焉。
事实上,原创首发页面的认定技术如果能有较大提高,可以帮助搜索引擎反作弊能力的大幅提高,直接挫败那些为牟利以各种方式欺骗搜索引擎的SEOER们的图谋,给认真致力于高质量原创内容者信心。
只有百度以实际行动尊重众多中小原创网站站长的劳动,鼓励他们不断地发挥聪明才智,进行原创工作,才能引导更多一天钻头觅缝于“复制采集伪原创”的站长、SEOER将精力投入到“最能体现网站核心价值”的原创内容上面。对于百度,这一步虽然很艰难,但却是有利于搜索引擎未来发展的一步大棋。
并且,不得不提醒百度网页搜索的是,尽快以更为合理的算法圆满解决站长们所反映“原创内容收录问题”,并不是百度对众多草根站长们的恩赐(知名网站根本不尿百度,淘宝直接屏蔽百度),而是现行《版权法》等相关法律要求百度必须履行的“基本义务”。百度们不能自我感觉太过于良好了。
何去何从,路在脚下,全凭搜索引擎自己选择(本文由gouyn12原创首发,版权所有,文责自负,转载请以链接形式标明文章首发出处http://www.gouyn12.com/cnnet/327.html)。
(责任编辑:陈龙) 作者 gouyn12 的个人空