蜘蛛、機器人和爬蟲是你的朋友。如果你要進行SEO,你不只需要喜歡它們,同時你真的需要刻意地把它們吸引到你的網站上來。
在SEO中,蜘蛛、機器人和爬蟲大體上講的是同一種東西,但是別過分擔憂——它們都沒有腿和觸角。所以,讓我們統一用「爬蟲(crawler)」這個字來稱呼它們。請牢記,有時你需要吸引這些機器人,或把你的網站偽裝成「蜘蛛誘餌」。這都屬於同一個原則。 那麼,什是爬蟲,為什麼我們要把它請到我的網站上來呢。 爬蟲是一種程序,或是一段自動化的腳本(經常被稱為bot,即robot的縮寫),它在網上不停地辛勤奔跑到各個URL上去。爬蟲透過它們所瀏覽的網頁上面的連結從一個URL爬到另一個URL。
主流搜尋引擎接連不斷地將它們的爬蟲派出去瀏覽廣闊的網路。爬蟲先找到各個頁面,然後把頁面上的文字和程式碼複製並儲存在它們巨大的索引伺服器上,這個過程叫做爬行(spidering)。這個巨大的索引,實際上就是一個包含搜尋引擎爬蟲可以成功存取到的所有網站頁面的資料庫。這個索引被用來作為當你搜尋時,可以非常快速地得到一個結果的倉庫。當你在一個例如Google的搜尋引擎上輸入一個搜尋字詞並提交,你實際搜尋的是搜尋引擎所索引的全部內容,而不是當時網路的實際內容。 當然,網頁會改變。有時,網頁和網站的變化週期非常短。除此之外,新的網站和網頁隨時都在快速出現。這也是為什麼爬蟲始終都在那裡不停地爬行,一遍又一遍地瀏覽網頁,並且建立和更新搜尋引擎的索引資訊。 搜尋引擎索引庫裡面的內容是爬蟲瀏覽網頁時看到的內容。爬蟲所看到的內容可能和一般的訪客看到的大相逕庭。如果你想查看爬蟲看到的某個網頁的內容是什麼,你可以使用IE瀏覽器來訪問它,然後按下Ctrl-A組合鍵,並瀏覽複製下來的內容(如果是Mac系統,則可以使用Apple-U組合鍵)。或者,你可以藉助Google,點擊搜尋結果下面的「網頁快照」鏈接,就可以看到爬蟲最近對這個頁面做的快照了。首先也是最重要的一點是,爬蟲將它們爬過的每個頁面的字和單字組合起來。它們索引文字和連結。當你在搜尋框中輸入搜尋字詞時,搜尋引擎盡量精確地找出並搜尋詞組最符合的網頁。 不同的搜尋引擎有它們獨特的爬蟲,和你所期料的一樣,它們並不是都以完全一樣的方式來運作。有些爬蟲會取得頁面上全部的內容,而有些可能只是對其中的某些部分感興趣。大部分爬蟲都認為,頁面的標題以及靠近頁面頂部的內容,比遠在頁面下方的內容更重要。爬蟲在爬行網站時經常遇到障礙並越過這些障礙,比如說,在網站上,沒有讓它們繼續爬行的鏈接,或者它們遇到了由怪異技術或代碼造成的問題。爬蟲也可能由於遇到技術阻礙,而進入陷阱,使它們無法輕易完成工作。 所以,任何SEO工作的第一步的重要部分都是讓爬蟲更容易發現和爬行你的網站。如果你的網站沒有被爬蟲爬過,它們就不會建立關於你網站的搜尋引擎索引。如果網頁沒有在索引當中,搜尋者也不會在搜尋引擎中找到它,因為搜尋引擎認為那個頁面根本就不存在。同時,搜尋者可能會找到其他網頁,而且很有可能是你的競爭對手的網頁。 連結和精心設計的網站結構是建立個體網頁、網站欄位與其他站內網頁和欄位之間關係的橋樑。這將為爬蟲提供清晰的爬行道路。
建立sitemap
建立sitemap 是幫助搜尋引擎爬蟲抓取網站的最簡單的方法之一。 sitemap是一個提供爬蟲網站內容URL清單—至少是網站擁有者希望爬蟲看到的位址清單的檔案(通常是xml 格式)。 sitemap 中還可以包括針對每個URL的附加信息,例如指定頁面的最近更新時間、更新頻率,以及相對於網站上其他內容的重要度(舉例來說,首頁比“聯繫我們”頁面更為重要) 。 sitemap 所提供的資訊可以幫助搜尋引擎爬蟲更聰明地抓取網站。 Google、MSN、Yahoo!以及Ask 都接受網站擁有者提交sitemap 的請求。然而要注意的是,沒有任何一家公司保證sitemap所提交的URL都會被抓取或被索引。 sitemap 對於那些提供不容易直接瀏覽到的資訊的網站來說十分有用,例如有些網站儲存了大量的檔案或資訊資料庫,這些資訊是透過使用者檢索才能看到的。請記住,爬蟲只是根據連結來抓取訊息,而通常情況下,這樣的資訊是缺乏連結指向的。
文章來源: http://www.jysnj.com轉載請註明地址
責任編輯:陳龍作者問二的個人空