在公司維護一些英文網站,主要是日常一些SEO方面的工作,如增加鏈接,做一些關鍵詞等,但自從2009年3月份以後,網站經常被掛滿了隱藏鏈接,這是典型的黑客侵入了網站系統,可能已經加了後門,從那以後,首頁經常被加入隱藏鏈接,雖然一直被覆蓋,但一兩天以後,首頁又被重新加上了隱藏鏈接。但這件事,我也只是敷衍了事,檢查日誌檔看不出什麼眉目,也就沒當回事,想就只是加幾個連結而已,也沒有什麼大不了的。
六月十九日,早晨檢查網站,看到網站訪問量大減,心中覺得奇怪,看一下訪客都是從Yahoo! 和Bing 進來的,就是沒有從Google 進來的,看一下Google 管理員工具看到Google 早在十七日就已經發郵件過來通知我,網站因為添加隱藏文本而被刪除,嚇了一跳,於是下載了整個網站,找到了黑客後門,刪除掉,修改頁面,重新提交審核,兩天以後,也就是二十一號早晨發現網站已經被重新收錄,而且排名位置基本上沒變。
從中,有幾個問題比較值得注意,從十七日Google 發郵件通知刪除索引,但那一天還是有從Google來的流量,到十九日就完全沒有從Google來的流量了,導致訪問量變化非常明顯,那就是說即使Google 搜尋品質小組發郵件來說已經刪除索引了,但實際上索引並未完全刪除,還是有流量從Google 過來的,而且兩天后,Google 重新收錄網站,排名基本都沒變,索引頁數也和以前比沒有變化多少,但尤其值得注意的一點是,居然發現首頁的Google 快照是六月十八日, 這一發現確實是挺讓人震撼的,那也就是說, Google spider 在刪除索引以後,還是來抓取頁面的。
在十九日刪除索引後,整個網站在Google是搜尋不到的,後來重新收錄,看到大部分的頁面的快照還是在十七日之前的,認真分析一下的話,會想說,索引真的是完全被Google 從索引資料庫中抹除了嗎,恐怕未必,否則快照日期不會是在刪除之前的日期,而應該是審核通過重新抓取的日期。
在此,大膽提出一個猜想,Google 搜尋引擎的演算法沒人知道,但有些痕跡是可以猜想的,我想:Google 是不是採取這樣的一種策略,專門有伺服器存放被懲罰的或者是被刪除的網站,就像google sandbox 一樣,甚至被刪除索引的網頁的處理方法就是google sandbox 的另一種表現,當一個網站被刪除索引時,索引全部移動到這樣的一個伺服器中,在正常排名的索引中再也不會有這些網站存在了,但蜘蛛還是會訪問這些被屏蔽的網站的,可以透過快照日期能夠看出來,不然的話,透過伺服器的日誌檔案也能看出來,一旦網站被重新審核通過,從這樣的一個伺服器中移動到正常索引中,時間會很短,這也是為什麼一旦審核通過,收錄頁面數量會從0回來以前的水平,如果是重新收錄的話,不應該會有這麼快的收錄速度。
只是把自己發現的一些問題提出來,希望朋友們提出自己的看法,和我一起交流。