今天接到一個旅遊網站客戶的電話,電話內容大致是這樣的「他的網站是2008年5份建設的,期間百度和谷歌的收錄一直都不錯,可今年3-4月份百度和谷歌的收錄一直在減少,到五月的時候直接被百度K了,於是透過網站聯繫到我。
在了解大概情況後(2月網站換過空間),我做對網站做了全面檢查,從網域、空間、robots.txt(搜尋引擎機器人協議),title、keywords、description、頁面佈局、關鍵字密度、標籤的應用、內鏈、錨鏈、外鏈、內容,等等應該檢查的地方都檢查了,除了部分線路文章跟別的網站有相同的情況以外,都沒有檢查出什麼大的問題,我也鬱悶了,會是什麼原因導致百度K站呢?
不得已只能跟客戶要FTP來,插入Google的網站管理員中心的診斷代碼來分析網站,放好代碼後點擊驗證,竟然返回了“404頁面返回的是200代碼”的提示,我暈~原來問題是出在這啊!!這樣的錯誤將意味著什麼呢?大家都知道,一個網站是無法避免輸錯地址、廢棄的鏈接和錯誤的鏈接,碰到這樣的請況,服務器就會返回404代碼給搜尋引擎爬蟲,404代碼是沒有找到頁面的意思,搜尋引擎爬蟲得到這個回饋資訊就會放棄這個頁面的抓取和收錄,而200代碼則是告訴搜尋引擎確認可以收錄這個頁面的意思。
這樣爬蟲只要爬到無法訪問的連結就會返回200代碼讓搜尋引擎收錄同一個404頁面,那麼爬蟲就會認為網站有大量重複內容的頁面,複製重複內容的頁面是搜尋引擎不允許的,輕則降權,重則K站。問題找到了,馬上通知客戶更正404頁面的正確設定。方法:選擇IIS裡的網站>>屬性>>自訂錯誤>>404>>編輯屬性>>訊息類型選擇檔案(一定要選擇文件,不然就返回200代碼了)>>瀏覽你的404文件>>確定。
網站優化就是做細節,404就是其中的一個細節。這是一個容易被忽略的問題,至少我就忽略了這個重要的細節,IIS預設的404頁面是一個使用者體驗很差的頁面,看到這個預設頁99%都會選擇關閉,而一個美觀友善的404頁面說不定就可以幫你挽回一個客戶。
這是一個線上查詢404頁面回傳程式碼是否正常的工具,要輸入錯誤的連結進行測試,例如:www.ynsem.cn/錯誤連結。