略析百度蜘蛛爬行

作者：Eve Cole 更新時間：2012-08-01 11:16:43

這幾天一直在搞網站和產品推廣，不懂的東西很多很多，但推廣的那些事中，很多名詞都非常的吸引我。首先是SEO，了解SEO的過程中，碰到了“外部鏈接”，學習外部鏈接的時候又偶遇“蜘蛛爬行”，一下子接收了那麼多信息，感覺相當神奇，SEO的事也的確不簡單。

而今天想跟大家談談「蜘蛛爬行」這個詞。我相信我不是第一個提到它的，因為我是後來者，但我希望我的描述能讓更多的人了解這個詞，畢竟，很多專業的介紹都相當專業，正因為太專業，而讓人覺得無法理解。

首先，介紹一下百度收錄。網路世界上有很多很多網站，網站中包含了許許多多的網頁，不計其數，就像我們人一樣，60多億的人口。那麼，有些人在世界上很有影響力的，像是成龍、李小龍、麥克傑遜等等，但像我們這些無名小卒，就那麼的卑微了。對世界貢獻大的，自然就出了名，那麼我可以換句話說，在網路上「有貢獻」的，就會被百度收錄，收錄的是它的網路位址，被百度收錄了，假如收錄的威望很多，那你有可能出現在百度搜尋的頭條，而頭條永遠是備受關注，正因為這個位置誰都想爭，隨之便產生了SEO(搜尋引擎優化)。

然後，收錄的內容統一放在一個庫裡，有條有序，而這個庫在網絡世界中有一個很好的名字“數據庫”，至於數據庫的原理我就不多說了，這裡大家主要認識到它是以一定格式保存或記錄資料的東西，「蜘蛛爬行「就用到這個東東。再跟大家說一下“蜘蛛”，當然不是我們日常所見的蜘蛛，簡單來說它是一個計算機程序，爬行的過程就是實現算法的過程(至於說法，不能簡單地理解為日常的算術過程，它的意義相當於一個活動的規劃流程)，最近好像百度更改了搜尋演算法，但具體怎麼改還是讓大家慢慢去了解吧。

「蜘蛛爬行」形像一點，有縱向爬行也有橫向爬行，也就是我們電腦專業術語的深度遍歷和廣度遍歷，而遍歷的內容就是大大小小的網站或網頁，遍歷過後蜘蛛主動下載網頁，然後將下載回來的網頁透過各種程式計算後才放到檢索區，才會形成穩定的排名，然後被百度的收錄到資料庫裡，最後顯示在百度網頁上。而在這裡，百度派出的不止一個“蜘蛛”，而是多個，或者十個，或者百個、千個，更或者萬個、幾十萬個，總之它的數目肯定不少，而派出蜘蛛在這裡就是計算機術語：線程。顯然多個蜘蛛就是多個線程，多線程執行搜尋的效率才會高。多個「蜘蛛」一起搜索，就是一個廣度上的搜索，一個「蜘蛛」順著某一個規則走下去，就是一個深度搜索。而網頁的搜尋深度優先和廣度優先，百度蜘蛛抓頁面的時候從起始站點(即種子站點指的是一些門戶站點)是廣度優先抓取是為了抓取更多的網址，深度優先抓取的目的是為了抓取高品質的網頁，這個策略是由調度來計算和分配的，百度蜘蛛只負責抓取，權重優先是指反向連接較多的頁面的優先抓取，這也是調度的一種策略，一般情況下網頁抓取抓到40%是正常範圍，60%算很好，100%是不可能的，當然抓取的越多越好。我在學習了解的過程中，偶遇了一篇介紹蜘蛛爬行的安全性的文章，裡面介紹到了蜘蛛一般會優先選擇遍歷那些網站，會自動躲開那些網絡漏洞，免得自己陷進去，這個挺吸引我的，弱弱記得這篇文章裡介紹說：優先遍歷靜態網站，因為動態網站裡可能存在死循環，這樣蜘蛛進去就出不來了，不過一般蜘蛛搜尋的過程會先檢測網站的安全性，發現這些毀滅性的動作，就會避開。我想這點值得大家考慮一下在建立動態網站的過程中，一定要嚴謹自己的程式碼，免得造成網站漏洞，最後沒有蜘蛛敢進去。

今天就介紹到這裡，很多不到之處，望各位多多指正!轉載請帶上：亞洲陶瓷商城： www.asiachinachina.com

（責任編輯:momo）作者亞洲陶瓷商城的個人空