2010年4月13日,在百度貼吧站長俱樂部中,知名華人SEO專家ZAC在“代人提問原創內容不能被識別”帖子中發問道:“自己的原創內容排名常常比不過轉載或抄襲的,站長能做些什麼預防或改進?我的站每天都更新原創內容,而百度每天也都更新,但是其他人的轉載被收錄了以後,我的文章就搜索不到了。月的原創,但百度仍然把我扔到了500多位!”
兩年前ZAC代表站長就原創收錄問題與代表百度的Lee之對話
兩年多過去了,上面提問中所陳述情況依舊毫無改觀,甚至越發惡化,各種「複製採集偽原創」有價值原創內容頁輕易地被百度網頁搜尋以關鍵字索引方式推薦給搜尋網友,而原創內容首發網站卻名落孫山。這客觀上縱容了那種瞄準百度缺陷,以「複製採集偽原創」為基礎所謂SEO的不斷氾濫。
不出所料的是,在今年8月10日的百度「站長門診開放日」活動中,原創識別問題又成為了各位站長、SEOER不斷向百度搜尋工程師Lee追問的問題。
同樣不出所料的是,百度搜尋工程師Lee的回答仍是兩年前回答「這個,只能說百度的策略還不是很完善,我們也一直在改進」的翻版——「我們正在設計一套較完善的原創識別演算法」。
而關注百度動態的人士可以很輕易地就發現,百度Lee「我們正在設計一套較完善的原創識別演算法」的回答完全就是對7月2日百度網頁搜尋反作弊團隊《針對低品質網站的措施已經生效》「打擊低品質網站(偽原創與無原創網站)措施已經生效」的全面否定——大家還記得,當時《針對低品質網站的措施已經生效》中氣宇軒昂地說道:「對提供優質、原創資源的站長來說,因為我們降低甚至清除了低品質站點的排名,你們將從百度得到更多的流量」。
但不到兩個月後,百度搜尋工程師Lee的回答就完全否定了百度網頁搜尋反作弊團隊的說法,這真的讓人大吃一驚。
並且,時隔兩年兩次面對「原創內容」識別提問,百度Lee都採取了「環顧左右而言他」的方法敷衍應付:兩年前Lee的回答為「從用戶體驗角度,有些轉載未必比原創差…只是國內的轉載,很多是掐頭去尾,使原創者比較受傷”,更多針對的是國內轉載不規範的問題;而今年百度Lee的回答則是:“(百度接到的聲稱自己是原創投訴)80%多都是無效的,甚至大量聲稱老中醫3-5天治愈絕症的網站,通篇內容讀不通,聲稱自己是高質量的網站」。
無可否認,Lee所說的都是事實,但真實的細節累加並不等於真實的整體,這些普遍情況的真實存在並不等於中國網絡界就沒有高質量原創內容存在,更不是百度無法識別網站原創先發的理由。俗話說“沒有金剛鑽,別攪瓷器活”,百度Lee這樣的表態只能證明百度的原創識別與去除重複頁面能力沒有絲毫進步。
必須強調的是,在了解識別原創頁面能力差是所有搜尋引擎的軟肋之後,許多草根原創者都在文章末尾處添加了版權說明標註首發網址,同時以高質量行業網站投稿的“內容同步”方式引導搜尋引擎及轉載站長——雖然所獲得鏈接更多的是純文本鏈接,但百度搜索工程師Lee所說“我們把問題明確一下:是否能識別和處理純文本形式的鏈接(非標籤)?答案是可以的,搜尋引擎的spider需要及時發現和抓取互聯網上的鏈接,至於鏈接是什麼形式,並不重要」給了他們信心。
可讓這些站長們大失所望的是,就在大量業內權威投稿轉載網站沒有百度Lee所說“掐頭去尾轉載”,且高權重投稿或轉載網站網頁生成及被搜索引擎收錄時間明顯早於“複製採集偽原創」網站的情況下,還是出現了大量原創首發頁面被百度忽略,「複製採集偽原創」網站排名居高不下——其中很多頁面還是隨便截取文章一部分,沒有完整表達文章主題,根本無法達到百度所標榜之「更好的使用者體驗」標準。
必須看到的是,雖然原創頁面的識別認定一直都是搜尋引擎的軟肋,但並不是所有搜尋引擎面對眾多高權重URL指向原創首發頁面的表現都如同百度們一樣糟糕。正如國內知名SEOER王通所言,在同樣面對中國網絡「複製採集偽原創」氾濫的情況下,對於有版權聲明網址指引的原創首發頁面(加之發佈時間、鏈接普遍性及鏈接網站頁面權重等標準),Google就沒有出現號稱「最懂中文」的百度那樣一敗塗地的情況-相關搜尋靠前位置大片被複製採集偽原創頁面佔領,原創先發頁面無影無蹤現象。
這說明,「最懂中文」的百度在關鍵字索引將網址推薦給搜尋網友之前,必須完成的原創識別工作與去除重複頁面工作(以甄別確定重點推薦的高品質資訊頁面及重要補充頁)基本沒有完成-原因是技術水準十分低下,急亟迎頭趕上,而百度Lee的說法只不過是不斷地為百度尋找托詞。
而且,相較之下,Google識別原創首發地址更良好的表現證明,百度並不在乎原創首發頁面,它在乎的只是更多原創內容——卻缺乏應有的版權意識,本人認為,這正是百度長期以來識別原創網站演算法落後的最主要原因,「非不能也,是不為也」。
無怪乎,國內知名SEOER王通「百度628調整,就是為了打擊原創網站」的言論一出,許多站長、SEOER於心有戚戚焉。
事實上,原始首發頁面的認定技術如果能有較大提高,可以幫助搜尋引擎反作弊能力的大幅提高,直接挫敗那些為牟利以各種方式欺騙搜尋引擎的SEOER們的圖謀,給認真致力於高品質原創內容者信心。
只有百度以實際行動尊重眾多中小原創網站站長的勞動,鼓勵他們不斷地發揮聰明才智,進行原創工作,才能引導更多一天鑽頭覓食於“複製採集偽原創”的站長、SEOER將精力投入到「最能體現網站核心價值」的原創內容上面。對於百度,這一步雖然很艱難,但卻是有利於搜尋引擎未來發展的一步大棋。
並且,不得不提醒百度網頁搜索的是,盡快以更為合理的算法圓滿解決站長們所反映“原創內容收錄問題”,並不是百度對眾多草根站長們的恩賜(知名網站根本不尿百度,淘寶直接屏蔽百度),而是現行《版權法》等相關法律要求百度必須履行的「基本義務」。百度們不能自我感覺太過於良好了。
何去何從,路在腳下,全憑搜尋引擎自己選擇(本文由gouyn12原創首發,版權所有,文責自負,轉載請以鏈接形式標明文章首發出處http://www.gouyn12.com/cnnet/327.html ) 。
(責任編:陳龍) 作者gouyn12 的個人空