1、抓取
抓取是Googlebot 發現新網頁並更新這些網頁以將網頁新增至Google 索引的過程。
我們使用許多電腦來取得(或"抓取")網站上的大量網頁。執行獲取任務的程式叫做Googlebot(也被稱為漫遊器或資訊擷取軟體)。 Googlebot 使用演算法來進行抓取:電腦程式會決定要抓取的網站、抓取頻率以及從每個網站中取得的網頁數量。
Google 的抓取過程是根據網頁網址的清單進行的,該清單是在先前進行的抓取過程中形成的,並且隨著網站管理員所提供的Sitemap 資料不斷進行擴充。當Googlebot 訪問每個網站時,它會檢測每個網頁上的鏈接,並將這些鏈接添加到它要抓取的網頁列表中。新建立的網站、對現有網站所進行的更改以及無效連結都會被記錄下來,並用於更新Google 索引。
Google 不允許以收取費用的方式來提高網站抓取頻率。我們會對搜尋業務和以營利為目的的AdWords 服務加以區分。
2、編制索引
Googlebot 會處理所抓取的每個網頁,以便將其找到的所有字詞和這些字詞在每個網頁上的位置都彙編到包含大量索引的清單中。此外,我們也會處理關鍵內容標記和屬性中的信息,例如TITLE 標記或ALT 屬性。 Googlebot 可處理許多類型的內容,但並非全部類型的內容。例如,我們無法處理某些Rich Media 檔案或動態網頁的內容。
3、提供結果
當使用者輸入查詢時,我們的電腦會搜尋索引以尋找符合的網頁,並傳回我們認為與使用者搜尋最相關的結果。相關性由200 多個因素來決定,其中之一即為指定網頁的PageRank。 PageRank 是根據其他網頁中的匯入連結對某個網頁的重要性所進行的衡量。簡單來說,其他網站中指向您網站網頁的各個連結構成了您網站的PageRank。並非所有連結都具有相同的價值:Google 致力於透過指明垃圾連結和其他會對搜尋結果造成負面影響的行為來持續改善使用者體驗。根據您所提供的內容的品質所指定的連結是最好的連結。
要讓您的網站在搜尋結果頁中獲得較好的排名,您一定要確保Google 能夠正確地抓取您的網站並將其編入索引。我們的網站管理員指南列出了一些可幫助您避免常見問題並改善網站排名的最佳實踐。
Google 的相關搜尋、拼字建議和Google 建議功能旨在透過顯示相關字詞、常見拼字錯誤和常見查詢來幫助使用者節省搜尋時間。與我們的google.com 搜尋結果相似,這些功能所使用的關鍵字會由我們的網頁抓取工具和搜尋演算法自動產生。我們只有在認為這些建議可以節省使用者時間時才會顯示這些建議。如果某個網站因某一關鍵字而獲得較高的排名,這是因為,我們已透過演算法確定了其內容對使用者的查詢更具相關性。