淺析搜尋引擎原理：檔案比對與初始子集的篩選

作者：Eve Cole 更新時間：2011-03-21 16:26:40

文件匹配與初始子集的選擇時搜尋引擎在排名的過程中非常重要的兩個方面，今天就這兩個方面給大家做一些基礎性的總結。雖然這些看似和我們沒有關係，但是大家多了解一些基礎性的原理，對以後網站的建設和優化都有一定的指導意義，當然，這些只是自己的一些總結，如果有不對的地方，還希望大家做指正。

當搜尋引擎經過預處理的前幾個階段之後，搜尋引擎得到的是以字為單位的關鍵字集合。在這個之前，搜尋引擎首先得到的是一個文件對應多個關鍵字，但這樣的查詢效率太低也不現實，所以搜尋引擎會把這些文件進行反向映射，得到的是一個關鍵字對應多個文件。這樣在使用者搜尋某個關鍵字的時候，就在這個關鍵字對應的所有檔案中進行計算和匹配，並傳回給使用者最佳的搜尋結果。了解了這個大體的過程，下邊就開始分享今天的兩個主要面向。

首先是檔案配對：搜尋引擎的蜘蛛是無時無刻的都在爬行和抓取，另外不斷對抓取的資料進行整理歸納以及儲存。這些過程並不是用戶在搜尋的時候進行的，而是在搜尋之前以後預處理好的，真正當用戶搜尋某個關鍵字時，搜尋引擎只是在自己的資料庫中進行查找，而不是即時的對互聯網上所有的網站進行查找。為了表達的更清楚，我以一個簡易的圖給大家說明：

這張圖就是典型的倒排索引快速匹配文件表，當用戶搜尋“關鍵字1 關鍵字16”，那麼搜尋引擎就會在這兩個詞對應的所有文件中進行簡單的計算和匹配，找到既包含關鍵字1也包含關鍵字16的所有頁面。

其次是初始子集篩選：子集就是為了更快速的滿足用戶的需要，搜尋引擎需要從所有的相關頁面中進行選擇，只計算權重稍高的頁面返回給用戶，這個過程就是常說的初始子集的篩選。大家可以試想，當我們搜尋某個關鍵字時，往往包含這個關鍵字的頁面數量是巨大的，甚至幾十萬、上百萬。如果搜尋引擎從這麼大的數據中進行匹配的話時間顯然更長，為了更好的滿足用戶的需求，實際中搜尋引擎只會選擇哪些權重高的頁面去匹配，但是什麼樣的頁面才是權重高，才符合搜尋引擎的條件呢？這就包含了多方面的內容和頁面相關元素的影響，既有外部因素，也會有內部因素。這個問題不是本文總結的一個重點，以後的文章會慢慢跟大家分享。

平常我們搜尋時不可能一一產看所有的搜尋結果，一般情況下只會去查看前幾頁甚至只是前幾名，雖然搜尋引擎返回的相關結果有很多，但這些結果仍然是互聯網上符合條件眾多網頁中的一小部分，所以，用戶的搜尋習慣在發生變化，搜尋引擎也面臨著很大的挑戰，如何能更好的幫助用戶搜索到需要的信息，永遠是搜索引擎在努力的一件事。

到這裡，透過文件配對以及初始子集的篩選給大家分享了一些搜尋引擎的基本原理，當然，在技術上往往要涉及的東西還有很多，考慮的各方面也更周全、更複雜，這些只是在大體的原理上給大家做了總結。透過了解搜尋引擎的各個方面，對於我們網站的建設以及搜尋引擎優化都能起到一定的指導作用。

好了，本文就到這裡，之後會繼續跟大家總結分享。本文來自：北京SEO，網址： http://www.seostudy.org/ ，轉載請保留版權，謝謝！

感謝北京SEO 的投稿