網路中的資源非常豐富,但是如何有效的搜尋資訊卻是一件困難的事情。建立搜尋引擎就是解決這個問題的最佳方法。本文首先詳細介紹了基於英特網的搜尋引擎的系統結構,然後從網路機器人、索引引擎、Web伺服器三個方面進行詳細的說明。為了更深刻的理解這種技術,本人也親自實現了一個自己的搜尋引擎——新聞搜尋引擎。
新聞搜尋引擎是從指定的Web頁面中按照超連接進行解析、搜索,並把搜尋到的每條新聞進行索引後加入資料庫。然後透過Web伺服器接受客戶端請求後從索引資料庫中搜尋出所符合的新聞。
本人在介紹搜尋引擎的章節中除了詳細的闡述技術核心外還結合了新聞搜尋引擎的實現代碼來說明,圖文並茂、易於理解。
目錄目錄 1
摘要 3
第一章引言 4
第二章搜尋引擎的結構 5
2.1系統概述 5
2.2搜尋引擎的構成 5
2.2.1網路機器人 5
2.2.2索引與搜尋 5
2.2.3 Web伺服器 6
2.3搜尋引擎的主要指標及分析 6
2.4小節 6
第三章網路機器人 7
3.1什麼是網路機器人 7
3.2網路機器人的結構分析 7
3.2.1如何解析HTML 7
3.2.2 Spider程式結構 8
3.2.3如何構造Spider程式 9
3.2.4如何提高程式效能 11
3.2.5網路機器人的程式碼分析 12
3.3小節 14
第四章基於LUCENE的索引與搜尋 15
4.1什麼是LUCENE全文檢索 15
4.2 LUCENE的原理分析 15
4.2.1全文檢索的實現機制 15
4.2.2 Lucene的索引效率 15
4.2.3 中文切分詞機制 17
4.3 LUCENE與SPIDER的結合 18
4.4小節 21
第五章基於TOMCAT的WEB伺服器 22
5.1什麼是基於TOMCAT的WEB伺服器 22
5.2用戶介面設計 22
5.3.1客戶端設計 22
5.3.2服務端設計 23
5.3在TOMCAT上部署項目 25
5.4小節 25
第六章搜尋引擎策略 26
6.1簡介 26
6.2面向主題的搜尋策略 26
6.2.1導詞 26
6.2.3權威網頁和中心網頁 27
6.3小節 27
參考文獻 28
展開