最近H1N1鬧得沸沸揚揚,全民皆知。這不前幾日連百度也中了H1N1病毒。
在搜尋引擎的更新速度中百度對於門戶新聞網站以及其他更新量大的網站索引速度都很快,基本上當天更新。但對於更新量小的網站,例如醫院網站,兩者就有較大區別,例如google對於高權重並提交sitemaps和ping的網站,其索引速度可以達到分鐘級別,有時剛剛更新完一篇文章,幾分鐘後就能在google中找到,但對於百度來說,索引速度較慢,通常只是爬去了網站的首頁,搜尋標題,或者目錄頁,而對於文章的內容頁很少。
根據我對www.wznanke.com這個新站的觀察,該網站主要是一個醫療類型的服務網站,從收錄的快照中可以看出百度對於網站首頁的關注似乎特別高。我是在網站首頁改版固定內容未曾完善的情況下,首先透過外部軟文鏈接,以及百度的知道,貼吧為輔助。不到一個週的時間被百度所收錄,透過對相關醫療網站分析,通常情況下。半個月之內發布的文章,使用百度搜尋文章標題,排在前面的基本上都是門戶網站轉載或集合來的文章,而醫院站點的文章大多千篇一律,所以文章的內容含量在搜尋引擎中顯得很小,那麼如何提高針對專業內容更新少,行業特徵明顯的類似萬眾男科網這樣的網站流量呢?如果百度也是不幸中了H1N1病毒或許我們能找到一些原因吧!
一、模擬抓取分析
(1)根據百度在該站5.16的一次爬蟲記錄顯示:
#Software: Microsoft Internet Information Services 6.0
#Version: 1.0
#Date: 2009-05-16 14:42:56
#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status
2009-05-16 14:42:55 W3SVC490114653 61.129.14.17 GET /robots.txt - 80 - 61.135.190.55 Baiduspider+(+http://www.baidu.com/search
首先爬蟲找到的是網站首頁頂部導航訊息,百度在讀取了一次robots返回404以後就暫停。由於網站內頁內容尚未完善的情況下,百度在讀取首頁後,又會間隔較長時間才會造訪內頁。根據模擬顯示,百度的第一次有效存取是:
2009-05-16 01:23:32 W3SVC490114653 61.129.14.17 GET /index.htm - 80 - 61.135.162.212 Baiduspider+(+http://www.baidu.com/search/www.
其次百度的下一次讀取很可能是繼續先讀取首頁內容,在site:wznanke.com中我們可以透過快照顯示出,不過在第二次爬取首頁的時候,沒有讀取robots(模擬爬蟲顯示)。
2009-05-16 08:24:26 W3SVC490114653 61.129.14.17 GET /index.htm - 80 - 61.135.162.212 Baiduspid er+(+http://www.baidu.
在接下來,可能百度會對首頁的鏈接進行稍多的讀取,由於該網站在逐步完善中所有接下來,網站應該完善相關內部鏈接,拒絕死鏈接的出現,根據模擬爬蟲記錄:
2009-05-1608:26:01W3SVC490114653 61.129.14.17 GET /remensousuo/RuHeJianFei/index.htm - 80 - 61.135.162.RuHeJianFei/index.htm - 80 - 61.135.162.RuHeJianFei/index.htm - 80 - 61.135.162.212 Baidusp.
根據百度baiduspider的每一階段爬取網內容的不同,我們可以及時根據相關規則調整網站的相關佈局。特別針對新站上線,百度不會很快就給與收錄,只有當你的網站在搜尋引擎有了一定得權重的時候,並且有一定高質量的反相鏈接,百度會給該網站一個閾值,隨著該閾值的提升,這時候百度才會開始收錄相關內容頁面,這時候網站才會有更多來自百度的流量。
特別是對網站內容還在逐步完善中,而又急切希望百度收錄的站長來說,切莫盲目提交各大搜尋引擎。在這中間我首先通過的是相關外鏈的文章來宣傳網站,透過百度給予權重較高的百度空間、貼吧、知道、配合百度經常光顧更新時間較快的門戶網站,諸如:新浪、網易、tom在相關社區重點撰寫一定品質的文章,這樣百度視為該網站獲得的外部權重較高,於是自願收錄其中。
當然百度也不會只是H1N1病毒的傳播者,只要我們找到了百度收取規則的法寶,這種H1N1病毒也將被廣大站長同志清除掉。
本文由www.wznanke.com站長友情供稿聯絡QQ309067036