隨著網路科學技術的高速發展,人們對網路搜尋引擎的依賴越來越強,尤其是在當今網路資源豐富,網路資訊需求日益上升的二十一世紀,搜尋技術佔據了網路的一個非常重要的製高點。現在人們常用搜尋引擎來搜尋多媒體資料、最新資訊和地圖等各種資料。
第一、 搜尋引擎的基本原理
搜尋引擎是一個能夠獲得網站網頁資料,建立資料庫並提供查詢的系統。
1.1搜尋引擎的結構
網頁蒐集就是透過網路蜘蛛去網頁爬行,並且沿著每個網頁中的連結去爬行其他網頁,最終可以爬行到很多網頁,並將這些網頁壓縮處理,儲存到知識庫當中。網路蜘蛛程式會不斷的對整個網路進行爬行,以確保資訊的及時性和有效性。
預處理是對蒐集到的網頁進行連結分析,網頁重要程度計算以及關鍵字提取,建立一個索引資料庫,這個資料庫的體系結構必須利於搜索,而且包含的資訊要盡量全面。
服務指的是為用戶提供服務,當用戶輸入關鍵字後,按照關鍵字在索引資料庫中快速的找到相關的信息,返回給用戶。
1.2搜尋引擎的分類
搜尋引擎可分為三類:全文檢索搜尋引擎、目錄搜尋引擎、元搜尋引擎。
全文搜尋引擎是透過網路蜘蛛去爬行各個網頁,將其資訊提取出來並存入一個資料庫中,當使用者使用時對使用者輸入的關鍵字進行匹配,並將資訊傳回給使用者。這是使用最多的一種搜尋引擎,google,baidu就屬於這種類型。
目錄搜尋引擎是將搜尋的資源按照一定的方式進行分類,最終建成一個很大的目錄系統,用戶查詢時可以逐層打開瀏覽目錄,最終找到想要的信息,目錄搜尋引擎嚴格上來說並不是一個真正的搜尋引擎。我們使用的yahoo,新浪就是屬於這種。
元搜尋引擎是一種呼叫其他搜尋引擎的引擎,它可以涵蓋更多的資源,提供比較全面的服務。使用比較多的有Dogpile,Vivisimo以及國內的搜星。
上述三種不同的搜尋引擎分別可以用於不同的場合,有自己的優缺點。全文搜尋引擎一般用於綜合性的搜索,它的優點是資訊量大,更新及時,不需要人工幹預,缺點是處理的資訊量大,資訊篩選困難。目錄搜尋引擎大多是面向網站,提供目錄瀏覽服務和直接檢索服務,它的優點是人工的干預有利於提高資訊搜尋的準確度,缺點是需要人工介入,維護成本高,更新慢,資訊量小。元搜尋引擎由於可以查詢多個其他的搜尋引擎,所以特別適合於要求查全率高的場合,但是目前不同的搜尋引擎之間,建立索引資料庫和執行提問檢索的具體方法或規則並不相同,大大影響了元搜尋工具的檢索效果。
第二、搜尋引擎實現的幾個關鍵技術
2.1 網路蜘蛛
網路蜘蛛的可以用幾種方式實現:
(1) 基於廣度優先。基於廣度優先的演算法按照所遇到的連結的先後順序進行存取。它是所有網路蜘蛛中是最簡單的一種策略。
(2) 基於深度優先。基於深度優先的想法根據選定的條件計算網頁與搜索主題之間的相似度,選擇相似度最高的鏈接進行搜索,在相似度的計算過程中,通常採用餘弦進行計算。
(3) 基於網頁評等。基於網頁評級是利用網頁評級並結合內容對搜尋到的文件集合進行評級,利用計算得到的結果從中挑選評級最高的連結作為下一個搜尋的對象。
(4) InfoSpider。 InfoSpider是利用進化的關鍵字表和神經網路方法,對與主題相關的網頁進行相似度的計算,根據計算的結果決定下一個將要搜尋的對象,同時計算新獲得的文檔與主題的相關程度以及在取得文件過程中所花費的代價修正代理的能量,並根據其能量等級決定對該代理進行撤銷、再生與生存。
2.2網頁重要性的評判
網頁重要性的評判方法主要有兩種,一種是基於連結的
方式,另一種是基於相似度的方法。
基於連結方式的計算的依據連結資訊與被連結的對象必然存在某種可信的映射關係。在應用過程中常用到以下內容:
(1) 入度:包含有連結目標指向本網頁的網頁數量;
(2) 出度:由該網頁連結出去的網頁連結數量;
(3) 網頁評級(Page Rank):指在任何時刻使用者造訪該網頁的可能性。
這種方法得到廣泛的應用,而且十分有效。
基於相似度的計算,一般都利用向量空間模型將查詢串與文字轉換為向量,然後評估文本與查詢串之間的相似度。
2.3搜尋引擎硬體系統的建立
搜尋引擎的硬體系統是整個系統的支柱,為了提供更快的查詢速度,硬體系統一般採用分散式的結構,Google的伺服器就分佈在全球各地,也採用平行技術,加快執行速率。另外,索引資料庫的硬體設計也很重要,對於提高資料存取速度非常關鍵。
第三、搜尋引擎反展趨勢
未來的搜尋引擎有著一下的特點:
(1) 能夠收集到網路上幾乎所有的資訊;
(2) 可以屏蔽一些非法的資訊;
(3) 查全率和查準率的提高
(4) 不僅能夠辨識文字檢索詞,還能構思影像、音訊、視訊等等;
(5) 資訊更新更快;
(6) 跨庫查詢方便簡介;
(7) 互動介面人性化、個人化;
(8) 可以實現智慧搜尋。
(9) 行動搜尋將會取得長足的發展。
第四、總結
本文對搜尋引擎進行了詳細的講解,對他的關鍵技術的實現進行了分析,並且提出了以後的發展趨勢,隨著技術的發展,人們需求的提高,搜尋引擎將會別的越來越智能,越來越高效實用。