インターネット上には豊富なリソースがありますが、情報を効果的に検索する方法は困難です。この問題を解決するには、検索エンジンを構築するのが最善の方法です。本稿では、まずインターネットベースの検索エンジンのシステム構成を詳しく紹介し、次にネットワークロボット、インデックスエンジン、Webサーバーの3つの側面から詳しく解説します。このテクノロジーをより深く理解するために、私は独自の検索エンジン、つまりニュース検索エンジンも個人的に実装しました。
ニュース検索エンジンは、ハイパーリンクに従って指定された Web ページを解析および検索し、見つかった各ニュースのインデックスを作成してデータベースに追加します。次に、Web サーバーはクライアントの要求を受け入れ、インデックス データベースから一致するニュースを検索します。
検索エンジンを紹介する章では、コア技術を詳しく解説するとともに、ニュース検索エンジンの実装コードを図と文章で分かりやすく解説しました。
目次 目次 1
まとめ3
第 1 章 はじめに 4
第 2 章 検索エンジンの構造 5
2.1 システム概要 5
2.2 検索エンジンの構成 5
2.2.1 ネットワークロボット5
2.2.2 インデックス作成と検索 5
2.2.3 Webサーバー6
2.3 検索エンジンの主な指標と分析 6
セクション 2.4 6
第3章 ネットワークロボット7
3.1 ネットワークロボットとは 7
3.2 ネットワークロボットの構造解析 7
3.2.1 HTML 7 を解析する方法
3.2.2 Spider プログラムの構造 8
3.2.3 Spider プログラムの構築方法 9
3.2.4 プログラムのパフォーマンスを向上させる方法 11
3.2.5 ネットワークロボットのコード解析 12
セクション 3.3 14
第 4 章 LUCENE 15 に基づくインデックス作成と検索
4.1 LUCENE全文検索とは 15
4.2 LUCENE 15の原理解析
4.2.1 全文検索の実装メカニズム 15
4.2.2 Lucene のインデックス作成効率 15
4.2.3 中国語単語分割メカニズム 17
4.3 LUCENE と SPIDER 18 の組み合わせ
セクション 4.4 21
第 5 章 TOMCAT ベースの WEB サーバー 22
5.1 TOMCAT ベースの WEB サーバーとは 22
5.2 ユーザーインターフェイスのデザイン 22
5.3.1 クライアントの設計 22
5.3.2 サーバー設計 23
5.3 プロジェクトを TOMCAT 25 にデプロイする
セクション 5.4 25
第 6 章 検索エンジン戦略 26
6.1 はじめに 26
6.2 トピック指向の検索戦略 26
6.2.1 ガイドワード 26
6.2.3 権威ある Web ページと中央の Web ページ 27
セクション 6.3 27
参考資料28
拡大する