這幾天一直在搞網站和產品推廣,不懂的東西很多很多,但推廣的那些事中,很多名詞都非常的吸引我。首先是SEO,了解SEO的過程中,碰到了“外部鏈接”,學習外部鏈接的時候又偶遇“蜘蛛爬行”,一下子接收了那麼多信息,感覺相當神奇,SEO的事也的確不簡單。
而今天想跟大家談談「蜘蛛爬行」這個詞。我相信我不是第一個提到它的,因為我是後來者,但我希望我的描述能讓更多的人了解這個詞,畢竟,很多專業的介紹都相當專業,正因為太專業,而讓人覺得無法理解。
首先,介紹一下百度收錄。網路世界上有很多很多網站,網站中包含了許許多多的網頁,不計其數,就像我們人一樣,60多億的人口。那麼,有些人在世界上很有影響力的,像是成龍、李小龍、麥克傑遜等等,但像我們這些無名小卒,就那麼的卑微了。對世界貢獻大的,自然就出了名,那麼我可以換句話說,在網路上「有貢獻」的,就會被百度收錄,收錄的是它的網路位址,被百度收錄了,假如收錄的威望很多,那你有可能出現在百度搜尋的頭條,而頭條永遠是備受關注,正因為這個位置誰都想爭,隨之便產生了SEO(搜尋引擎優化)。
然後,收錄的內容統一放在一個庫裡,有條有序,而這個庫在網絡世界中有一個很好的名字“數據庫”,至於數據庫的原理我就不多說了,這裡大家主要認識到它是以一定格式保存或記錄資料的東西,「蜘蛛爬行「就用到這個東東。再跟大家說一下“蜘蛛”,當然不是我們日常所見的蜘蛛,簡單來說它是一個計算機程序,爬行的過程就是實現算法的過程(至於說法,不能簡單地理解為日常的算術過程,它的意義相當於一個活動的規劃流程),最近好像百度更改了搜尋演算法,但具體怎麼改還是讓大家慢慢去了解吧。
「蜘蛛爬行」形像一點,有縱向爬行也有橫向爬行,也就是我們電腦專業術語的深度遍歷和廣度遍歷,而遍歷的內容就是大大小小的網站或網頁,遍歷過後蜘蛛主動下載網頁,然後將下載回來的網頁透過各種程式計算後才放到檢索區,才會形成穩定的排名,然後被百度的收錄到資料庫裡,最後顯示在百度網頁上。而在這裡,百度派出的不止一個“蜘蛛”,而是多個,或者十個,或者百個、千個,更或者萬個、幾十萬個,總之它的數目肯定不少,而派出蜘蛛在這裡就是計算機術語:線程。顯然多個蜘蛛就是多個線程,多線程執行搜尋的效率才會高。多個「蜘蛛」一起搜索,就是一個廣度上的搜索,一個「蜘蛛」順著某一個規則走下去,就是一個深度搜索。而網頁的搜尋深度優先和廣度優先,百度蜘蛛抓頁面的時候從起始站點(即種子站點指的是一些門戶站點)是廣度優先抓取是為了抓取更多的網址,深度優先抓取的目的是為了抓取高品質的網頁,這個策略是由調度來計算和分配的,百度蜘蛛只負責抓取,權重優先是指反向連接較多的頁面的優先抓取,這也是調度的一種策略,一般情況下網頁抓取抓到40%是正常範圍,60%算很好,100%是不可能的,當然抓取的越多越好。我在學習了解的過程中,偶遇了一篇介紹蜘蛛爬行的安全性的文章,裡面介紹到了蜘蛛一般會優先選擇遍歷那些網站,會自動躲開那些網絡漏洞,免得自己陷進去,這個挺吸引我的,弱弱記得這篇文章裡介紹說:優先遍歷靜態網站,因為動態網站裡可能存在死循環,這樣蜘蛛進去就出不來了,不過一般蜘蛛搜尋的過程會先檢測網站的安全性,發現這些毀滅性的動作,就會避開。我想這點值得大家考慮一下在建立動態網站的過程中,一定要嚴謹自己的程式碼,免得造成網站漏洞,最後沒有蜘蛛敢進去。
今天就介紹到這裡,很多不到之處,望各位多多指正!轉載請帶上:亞洲陶瓷商城: www.asiachinachina.com
(責任編輯:momo) 作者亞洲陶瓷商城的個人空