搜尋引擎是如何判斷頁面文章內容是否原創的

作者：Eve Cole 更新時間：2011-06-29 16:44:06

本人最近在操作一個非主流站，內容是採集的，開始收錄還好，後來不久就被k了，幾萬數據的站百度收錄只剩幾十。當然，我也知道一直採集也不是辦法，可是人力有限，不可能去一條條加，也不現實。所以想搜尋一下搜尋引擎是怎麼判定原創與否的，但很可惜，這方面的內容實在不多。然後我去以搜尋工程師的角度去想了想，不禁一身冷汗啊，因為判定原創與否實在太簡單了。我就依照我的思考順序分析一下，供參考。

下面我以這篇文章為例來講解。標題：南昊北京科技有限公司是專業的遊標閱讀機製造商。內容:南昊科技研發的遊標閱讀機讀卡快，品質優，服務好。我們的公司地址在北京市XXXX。蜘蛛透過超連結文字來到我們的網站，並透過站內連結來到此篇文章頁。搜尋引擎判斷分析開始。

1.標題的分析。現在好多的網頁都有明顯的優化痕跡，帶有有很多的長尾詞，但是這些在後邊位置的長尾詞應該只是告訴引擎本頁面這是關於什麼內容的，因為這樣的話引擎會認為有太多重複，顯然這是一個不正確的做法。實際上應該為有一個截取函數，例如只截取前邊40個字元作為分析內容。最終，假設引擎截取的是：南昊北京科技有限公司是專業的遊標閱讀機。

首先要做的就是判斷這個標題是不是唯一，怎麼判斷呢，放心有辦法。我們都知道引擎分類是依照字詞條目來分的，那條目該怎麼來呢。簡單：相關搜尋詞條目。如下圖：

引擎會把截取到的標題按這個相關搜尋字詞去他的資料庫中逐一分析匹對。舉個例子吧，從標題中取到遊標閱讀機這個詞，然後和相關搜尋詞匹對，如果資料庫中已經存有了這個標題，就會認為此標題不唯一，待匹對文章內容。如果遊標閱讀機這個詞匹對完畢，再會截取南昊北京，再會以此類推，進行匹對……直到分析完引擎認為標題所含全部的關鍵字。

最終標題的匹對結果有兩種：一，標題資料庫暫無此內容，待考察內容。二，標題資料庫中已存在此內容，待考察內容。

2.內容的分析。基本想法應該和標題的分析是差不多的，但是也有差別，困為內容包含的資訊畢竟比標題要復雜，五花八門的多，也要有更複雜的演算法。

前邊已經說了我們的內容是：南昊科技研發的遊標閱讀機讀卡快，品質優，服務好。我們的公司地址在北京市XXXX。因為文章內容通常很長，所以不可能去對關鍵字進行分析，他只好去對一句話或一段話進行分析。但是這個匹對範圍應該還是標題中有相關搜尋字詞的文章資料庫中進行分析匹對。

先大體說一下他的分析方法：隨機截取隨機長的字段，然後就行此字段前後內容的分析，如果當前頁與引擎內容數據庫中有相同字段的且前後段也相同的話，就會認為這個文章有抄襲，非原創的嫌疑。這個分析過程一般要重複幾次，假如分析了10次，有9次在截取字段前後都能在已有內容資料庫中有相同內容，再加上標題又相同，這樣的話，你這篇文章就會被認定為非原創了。

下面我們來模擬一下。

引擎第一次截取到了“遊標閱讀機讀卡快，”，然後通過相關搜尋字詞來到文章資料庫，已有資料庫欄位前為“科技研發的”，欄位後為“品質優”，取出這兩個字段與我們當前頁面進行匹對。若有相同內容，記為0,沒有相同內容，記為1。一次匹對完畢。

然後再截取“公司地址”，進行操作，再次得到一個結果0或1，以此類推。直到完成引擎設定的匹對循環次數。如果匹對10次，有7次，或8次，或10次都能找到相同內容，那麼就會認為你的這篇不是原創了…

再往遠了說，如果判定這是一篇原創，那麼引擎會在他的域名權重數據庫中對該域名進行+1操作，顯然，越來越多的原創，權重也就越來越高，排名也就越來越好了。如A5,chinaZ。

我想透過標題與內容的這樣關鍵字匹對，只要進行足夠次數的匹對，大膽擴展相關資料庫匹對範圍，一篇文章是不是原創就能分辨出來了。事實上，現在的處理器是越來越快又便宜，再加上搜尋引擎工程師都是高學歷的，演算法的提升改善，還有那經驗的累積。搜尋引擎對文章原創與否進行判斷，就像剁大白菜一樣簡單。

不想還行，一想真是嚇一跳，得到的結論是採集站必死!原創吧還是，最不濟標題起碼也要改吧。看看吧，如果有時間了再分享一下如何做好引擎分析不出來的偽原創文章。

以上只是小弟淺顯分析，實際演算法畢竟複雜得多，僅供參考!另AD一下：http: //www.nanhaokeji.com ,我操作的一個站誠招友情鏈接，企業站為佳，PR剛更新為1了，QQ：419844484,加好友請註明友鏈。

責任編輯:陳龍作者feelingseas 的個人空