做SEO的童鞋都知道,網站被搜尋引擎收錄是關鍵,如果你的網站沒有被搜尋引擎收錄,那麼SEO就無從談起。所以要想網站能夠被搜尋引擎發現且網頁能夠被搜尋引擎正常收錄,那麼首先就得讓自己的站點便於蜘蛛的爬行。搜尋引擎爬取網頁的工具稱為蜘蛛或爬蟲機器人,英文名即robot。這些蜘蛛沿著超連結爬取我們的眾多頁面,但是有些頁面是爬不到的,有的是因為網站本身存在一些不利於蜘蛛爬行,導致其對應的頁面很難被搜尋引擎收錄,這樣就形成了“蜘蛛陷阱”,一般指的是對搜尋引擎不友善的網站製作技術,這些技術不利於蜘蛛爬取我們的頁面,為了避免這種情況,小無名總結瞭如下因素,防止蜘蛛進入陷阱。
1:採用session id的頁面,有的銷售類站點為了分析用戶的某些資訊會採用會話ID來追蹤用戶,訪問站點的時候每個用戶訪問都會增加一次session id而加入到URL中,同樣蜘蛛的每一次訪問也會被當做為一個新用戶,每次蜘蛛來訪問的URL中都會加入一個session id,這樣就會產生了同一個頁面但URL不同的情況,這種的一來會產生複製內容頁面,造成了高度重複的內容頁,同時也是最常見的蜘蛛陷阱之一。比如說有的網站的為了提高銷售業績,而進行彈窗會話等,比如說您好來自XXX地的朋友等。
2:常識性的蜘蛛陷阱,採用強制註冊或登入才能訪問的頁面,這種的對於蜘蛛來說就相當為難了,因為蜘蛛無法提交註冊更無法輸入用戶名和密碼登錄查看內容,對於蜘蛛來說我們直接點擊看到的內容也是蜘蛛所能看到的內容。
3:喜歡採用Flash的站點,之所以說是喜歡採用flash的站點是因為對於一些中小型企業來說,因為flash本身可以做很多種效果,尤其是放在導航上視覺效果強,所以不少企業站喜歡弄個flash來展示自己公司的實力,文化,產品等,甚至一些企業站點的網站首頁就是一個flash,要么是在多長時間後通過flash跳到另外一個頁面,要么就是通過flash上的連結讓用戶自己點擊後進入一個新的頁面,但對於蜘蛛來說一來是很難讀取flash中的內容,所以蜘蛛也很難點擊flash上的連結。
4:動態URL,在url中加入過多的符號或網址參數等,這種蜘蛛陷阱我在url優化中曾經有提到,雖然說隨著搜尋引擎的技術發展,動態url對於蜘蛛的抓取已經越來越不是問題了,但是從搜尋引擎友好度上來講,靜態哪怕是偽靜態url相對來說都比動態url要好,可以看下很多SEO同行對於url中的處理方式。
5:框架,在早期框架到處被氾濫使用,而現在框架網頁很多網站已經很少使用了,一是因為現在隨著各大CMS系統的開發問世,網站維護相對也越來越簡單了,早期網站使用框架是因為對網站頁面的維護有一定的便利性了,現在已經大可不必了,而且不利於搜尋引擎收錄也是框架越來越少被使用的原因之一。
6:JS,雖然現在搜尋引擎對於javascript裡的連結是可以追蹤甚至在嘗試拆解分析的,但是我們最好不要寄望於搜尋引擎自己克服困難,雖然說透過js可以做一些效果不錯的導航,但是CSS同樣可以做到;為了提高網站對搜尋引擎的友好度建議使網頁能夠更好的蜘蛛爬行,就盡量不要採用js,當然在seo中,js有一個好處就是站長不希望被收錄的頁面或者友情連結可以採用js。還有一種方法可以消除Javascript 蜘蛛程式陷阱,即使用< noscript >標籤。 < noscript >標籤是為不支援JavaScript 的瀏覽器提供替代的程式碼。蜘蛛程式不會執行JavaScript, 因此他們透過處理< noscript >程式碼來取代。
7:深層的網頁,有的網頁沒有入口,而且距離網站的首頁又很遠,這種頁面就相對較難被蜘蛛爬行到,當然對於那些權重高的網站可能會另當別論了。網站的頁面要被收錄,首先要需要基本的權重,首頁的權重一般是最高的,然後首頁的權重是可以傳遞到內頁的,當內部頁的權重上升到可以被收錄的門檻,頁面就會被收錄,依照這個理論,頁面之間的權重傳遞是會遞減的,因此,內頁和首頁的點擊距離越近,越容易得到更多的首頁權重傳遞。良好的網站結構可以讓網站更多的頁面被收錄。
8:強制使用cookies,對於搜尋引擎來說是相當於直接禁用了cookies的,而有些網站為了實現某些功能會採取強制cookies,比如說跟踪用戶訪問路徑,記住用戶信息,甚至是盜取用戶隱私等,如果使用者在造訪這類網站時沒有啟用cookies,所顯示的頁面就會不正常,所以對於蜘蛛來講同樣的網頁無法正常存取。
9:各種形式的跳轉,對於301重定向相信很多seo童鞋已經非常熟悉了,但是對於其他302,或者meta refresh,javascript,flash等跳轉,蜘蛛是很反感的,而且301也是不到萬不得已的時候採用,任何跳躍都會在一定程度上為蜘蛛的爬行帶來障礙,所以你懂得。
10:robots.txt書寫錯誤和各種各樣的作弊手法,比如說隱藏文字,隱藏連結等,採用偽裝網頁在判斷來訪者是蜘蛛還是普通瀏覽器者而顯示不同的網頁,使用預設錯誤的404頁等,同樣會為蜘蛛帶來爬行障礙。本文來源:深圳SEO 網址: http://www.zhsem.com/請尊重原創,轉載請註明,謝謝!
作者小無名的個人空