像谷歌等搜尋引擎有一個問題。他們稱之為「重複內容」。你的內容展示在網站各個不同頁面,他們不知道該展示那個地址。尤其是當人們連結到你所有的不同版本的內容時,這個重複內容會更嚴重。這篇文章旨在讓你了解造成重複內容的不同原因,然後找出各個的解決之道。
重複內容原因
1.誤解URL概念
2、session ID's
3、URL 追蹤參數
4.內容搜刮&內容聚合
5.參數順序
6.評論分頁
7.列印頁面
8、www vs. 無www
概念上的解決方法“canonical”標籤
1.識別重複內容
2、Google網站管理員工具
3.搜尋指令查詢title
解決重複內容的實作操作
1.避免重複內容
2、301重定向
4.使用rel=“canonical”標籤
5.連結鏈向原始內容
總結:重複內容是可以解決的也應該解決
你可以把重複內容比喻為你站在你一個十字路口,而道路標誌上有兩個不同方向都指向同一個目的地,究竟該走哪一條路?更有甚者在當你的目的地不一樣時,情況會更糟。作為一個讀者,不會管內容從哪裡來,但是搜尋引擎不得不挑選一個展示在搜尋結果中,因為他們不想把同樣的內容展示兩次。
比方說,關於關鍵字X的內容展示在http://www.example.com/keyWord-x/這個URL上,同樣的內容也出現在http://www.example.com/article-category/keyword -x/上,這種情況可不是虛構的哦,在很多cms系統中都存在這個問題。例如你的文章已經被一些網友收藏轉載了,有些人鏈向你的第一個URL,有些人鏈向你的第二個URL。這時重複內容問題就來吧。如果所有關於這個關鍵字的連結都指向一個URL的話,關鍵字在首頁的幾率也會高很多。
重複內容起因
有很多因素可以導致重複內容。絕大部分都是技術上的,一個人決定把同樣的內容放在兩個不同的地方,並不指出原始出處這種情況不是很常見,絕大部分人都會覺得不舒服。技術上的理由也是很充分。它產生的絕大部分原因是程式設計師沒有站在瀏覽器或使用者角度,也沒管搜尋引擎蜘蛛,只是依照程式設計師的思維。假設之前提到的文章它出現在http://www.example.com/keyword-x/和http://www.example.com/article-category/keyword-x/ ? 如果你問程式設計師,他會說它是只出現一次啊。
誤解URL的概念
那麼程式設計師都瘋了嗎?不,沒有,他只是再說另一種語言。你看到的整個網站可能都是資料庫驅動的。在那個資料庫裡面,只有一篇文章,網站程式允許資料庫中的一篇文章可以透過不同的URL存取得到。因為在程式設計師眼裡,唯一的標誌是資料庫中的文章只有唯一的ID,而不是URL。對於搜尋引擎,URL才是一篇文章的唯一識別符。如果你這樣跟你的程式設計師說,他才會意思到問題原因,接著他會像與我共事的大部分程式設計師一樣,想搜尋引擎愚蠢在哪裡以及為什麼他不能解決這個問題。如此他又走向另一個錯誤的思維。
Session ID
你常想著去追蹤你的訪客的軌跡,例如儲存他們在購物車購買的物品。要做到這一點,你必須給他們一個session(會話)。一個session會話基本上是訪客在你網站所做的簡短歷史,可能包含內容例如購物車裡面的物品。為了保持訪客從點擊一個網頁到另一個網頁的會話session,需要儲存子某個地方。最常見的解決方法是cookies,然而搜尋引擎通常不會儲存cookies。
在這一點上發生了什麼,一些網站系統在URL中使用session ID來返回。在這一點上每個網站上的內部連結都會被追加上session ID,而session ID又是唯一的,這樣產生了新的URL,因此重複內容產生了。
使用追蹤和排序的URL參數
另一個引起重複內容的原因是URL參數的使用,雖然參數不會改變頁面內容,例如在追蹤連結裡面。你會看到http://www.example.com/keyword-x/和http://www.example.com/keyword-x/?source=rss等對搜尋引擎來說都不是同樣的URL。後者可能是允許你追蹤來源,它可能會使你的排名變得有點困難,一個非常不好的負面效果。
這不僅適用於追蹤參數,它也適用每一個你加在URL後面的參數不會改變你網頁上的實際內容。涉及到參數會改變網頁上產品的順序或展示另外一個sidebar這些都會導致重複內容。
內容搜刮和內容聚合
雖然引起重複內容的絕大部分原因在於你自己,或至少是你網站的過失,有時是其他網站有沒有經你同意使用你的內容。他們並不總是鏈向你的原始內容,搜尋引擎也不知道就會不得不處理你的同樣文章的另一個版本。
你的網站越來越流行,遇到的搜刮也越來越多,問題也會越來越嚴重。
參數順序
另一個較常見的原因是cms不會使用簡潔乾淨的URL,而是使用例如/? id=1&cat=2,這裡的ID指示文章,cat指示分類。在大部分的建站系統中,這個URL /? cat=2&id=1 也會渲染同樣的內容,但對搜尋引擎來說他們就是完全不同的。
評論分頁
在wordPRess系統或其他程式裡面會有一個評論分頁的選項。這將會導致文章內容在文章本身的URL 還有文章的URL+/comment-page-1/, /comment-page-2/ 等的重複。
列印頁面
如果你的cms會產打印頁面而且從你的文章頁面還有鏈接,在絕大部分情況下谷歌會發現這些頁面,除非你特別阻止他們。谷歌該展示那一個版本?一個有廣告和周邊內容的頁面或一個只有你文章的頁面。
WWW vs. non-WWW
這是一個最老的問題了,但是當兩個版本都可以訪問時,有時搜尋引擎還是會混淆WWW vs. non-WWW重複內容。
一個不常見的情形還有http vs https 重複內容。
概念上的解決方法“canonical”標籤
如同上面所確定的,不同的URL產生相同的內容會導致重複內容是一個問題,但它可以被解決的。人類在發表文章時通常可以輕易地告訴你某個文章的正確的URL應該是什麼。搞笑的是有時你問同一家公司的3個人會得到3個不同的答案。
總結:重複內容是可以解決的也應該解決
在這些情形中問題需要解決,因為在最後只能有一個URL。文章正確的URL可以被搜尋引擎命名的Canonical。
識別重複內容
你可能不知道你網站上是否有重複內容。就讓我來給你一些方法。
Google網站管理員工具
谷歌網站管理員工具是一個很好的識別重複內容的工具。如果你到Google網站管理員工具查看你的網站,檢查診斷—》HTML建議,你就會看到這樣的
如果頁面有重複的title或重複描述的話,那裡幾乎沒有什麼好事情。點擊它會顯示那些URL有重複標題或描述將幫助你識別出問題。問題是如果你有一篇文章關於「keyword -X」顯示在兩個分類裡面,他們的title可能會不一樣。例如他們的標題會是「Keyword X - Category X - Example Site」 和「Keyword X - Category Y - Example Site」。 谷歌不會把他們當作重複標題,但是你可以透過搜尋找到他們。
尋找title或其他片段
有幾個搜尋運算符在這種情況下是非常有幫助的。如果你想找到你網站上包含你的關鍵字「X」文章的所有URL,你可以輸入在Google搜尋框中輸入以下指令:
site:example.com intitle:"Keyword X”
複製程式碼
Google將會展示你在example.com上所有頁麵包含那個關鍵字的。你搜尋title部分的關鍵字越具體,也越容易找到重複內容並清除他們。你也可以用同樣的方法來辨識別人網站上有沒有你重複的內容。比如說,你文章的完整title是Keyword X - why it is awesome,你可以搜尋
intitle:"Keyword X - why it is awesome”
複製程式碼
Google會回傳所有網站上包含這個title的。有時你也可以搜尋你文章中的一兩個句子,因為有些內容搜刮的人可能會改掉你的title。在某些情況下,當你搜尋的時候,Google可以在結果最後顯示如下的提示:
這就是一個訊號說谷歌已經刪除了重複的數據結果。這顯然是不好的,你可以繼續點擊進去查看其他的結果來看是否有助於你解決這些問題。
解決重複內容的實作操作
一旦你決定那個URL是你文章該規範化的URL,你就不得不開始一些規範化的過程(好的我知道我很囉嗦已經說了好幾遍了)。這基本上意味著讓搜尋引擎知道並讓他盡快發現這個規範化版本。這裡有四個解決這個問題的方法:
1.不要產生重複內容
2.把重複內容重新導向到規範化的URL
3.在重複頁面新增一個link Canonical標籤
4.在重複內容頁面新增一個超連結到規範化的URL
避免重複內容
對於上述引起重複的內容的原因有些很簡單的方法修復他們
1、URL中的session ID?
通常你可以你的系統設定裡面取消
2、有列印頁面
這些都完全沒有必要,你可以使用print 樣式表
3.在wordpress中使用評論分頁
這個問題你可以在設定裡面取消評論分頁嘛
4.參數的不同順序
告訴你的程式設計師建立一個代碼來在同樣的順序上排序(這裡通常指涉的是URL factory)
5.追蹤參數問題
大部分情況下你可以使用hash值#號來代替參數追蹤行銷活動
6、WWW vs non-WWW問題
選擇你想要的版本並重定向一下堅持下去。你可以在Google網站管理員工具裡面設定。
如果您的問題不是那麼容易解決,它可能仍然是值得的努力來防止完全重複的內容。以上就是迄今為止最好的解決辦法。
301重定向重複內容
在某些情況下,不可能完全阻止你使用的系統文章內容產生錯誤的URL,但是你是可以重定向他們的。如果這個對你來說不符合邏輯(我能夠理解)你千萬要記得在跟你的程式設計師說的時候。此外,如果你解決了重複內容問題,確保你把所有舊的重複內容URL重新導向到適當的規範化URL。
使用rel=“Canonical”
有時你不想去或不能解決文章的重複問題時,但是你必須知道這是錯誤的URL。對於這個特殊的問題,搜尋引擎也引進了這個
Canonical 元素。它放置在您網站上的一部分看起來像這樣:
<link rel="canonical" href=" http://example.com/keyword-x/"/ >
在這個Canonical link標籤裡面的href部分你放置文章正確規範化的URL,當谷歌或其他支持這個屬性的搜尋引擎發現了這個link元素,它會做一個軟的301跳轉:它也會傳遞這個網頁的大部分連結價值到你的規範化URL。
這個過程會比301跳慢,所以你使用301的話會更可取Google's John Mueller提到http://www.seroundtable.com/google-canonical-tag-vs-301-redirect-12611.html
鏈回到你的原始版本
如果你不能做到上面這些的話,可能你不能控制內容展示網站上的《head》部分,在頁面頂部或底部添加一個連結指向你的原始頁面也是個不錯的主意。還有一些其他的你想在你的RSS feed中添加一個連結指向你的文章。一些搜刮者可能會過濾掉這些鏈接,但是一些可能會留在那裡,如果谷歌計算到好幾個鏈接指向你的文章它也會很快知道這就是確切的規範化文章版本。
總結:重複內容是可以解決的也應該解決
重複的內容無所不在發生。我還沒有遇到超過1000頁面的網站沒有一點重複內容。這件事需要你在任何時候保持專注。這是可以解決的而且回報會很多。在解決了重複內容之後你的高品質內容網頁排名可能會飆升。當然首先你要辨識確定這些問題,幫助你的程式設計師想出解決問題的方案甚至幫你解決問題。
譯作者:zhipeng
文章來源:光年論壇( http://www.gnbase.com/thread-474-1.html )
英文原文: http://yoast.com/articles/duplicate-content/
註明:文章由光年論壇zhipeng授權於站長之家轉載。如需轉載,請註明文章來源和連結。