ネットワーク科学技術の急速な発展に伴い、人々はますますネットワーク検索エンジンに依存するようになり、特にネットワーク資源が豊富でネットワーク情報への需要が増大している21世紀において、検索技術は社会の非常に重要な部分を占めています。インターネット。現在、人々はマルチメディア資料や最新情報、地図などさまざまな情報を検索エンジンで検索することが多くなっています。
まず、検索エンジンの基本原理
検索エンジンは、Web サイトの Web ページ情報を取得し、データベースを構築し、クエリを提供できるシステムです。
1.1 検索エンジンの構造
Web ページの収集では、Web スパイダーを介して Web ページをクロールし、各 Web ページ内のリンクに沿って他の Web ページをクロールします。最終的には、多くの Web ページをクロールでき、これらの Web ページを圧縮してナレッジ ベースに保存できます。 Web スパイダー プログラムは、Web 全体を継続的にクロールして、情報の適時性と有効性を確保します。
前処理では、収集された Web ページのリンク分析を実行し、Web ページの重要度を計算してキーワードを抽出し、インデックス データベースを構築します。このデータベースのアーキテクチャは検索に適しており、含まれる情報は可能な限り包括的である必要があります。
サービスとは、ユーザーがキーワードを入力すると、そのキーワードに基づいて関連情報がインデックスデータベースから迅速に検索され、ユーザーに返されるサービスを指します。
1.2 検索エンジンの分類
検索エンジンは、全文検索エンジン、ディレクトリ検索エンジン、メタ検索エンジンの 3 つのカテゴリに分類できます。
全文検索エンジンはウェブ スパイダーを使用してさまざまな Web ページをクロールし、その情報を抽出してデータベースに保存します。ユーザーが使用すると、ユーザーが入力したキーワードと一致して情報が返されます。これは、最も一般的に使用されている検索エンジンです。Google と Baidu がこのカテゴリに分類されます。
ディレクトリ検索エンジンは、検索されたリソースを特定の方法で分類し、最終的には大規模なディレクトリ システムを構築し、ユーザーがクエリを実行すると、ディレクトリを階層ごとに開いて参照し、最終的に必要な情報を見つけることができます。本物の検索エンジンではありません。私たちが使用している Yahoo と Sina はこのカテゴリに分類されます。
メタサーチ エンジンは、他の検索エンジンを呼び出すエンジンであり、より多くのリソースをカバーし、より包括的なサービスを提供できます。最もよく使用されるのは、Dogpile、Vivisimo、国内スター検索です。
上記の 3 つの異なる検索エンジンはさまざまな状況で使用でき、それぞれに長所と短所があります。全文検索エンジンは一般に、包括的な検索に使用されます。その利点は、大量の情報、タイムリーな更新ですが、欠点は、大量の情報を処理することと、情報のフィルタリングが難しいことです。ディレクトリ検索エンジンは主に Web サイトを対象としており、ディレクトリ参照サービスと直接検索サービスを提供します。その利点は、手動介入が情報検索の精度向上に役立つことですが、欠点は、手動介入が必要であり、保守コストが高く、時間がかかることです。更新情報やちょっとした情報など。メタ検索エンジンは他の複数の検索エンジンにクエリを実行できるため、高い再現率が必要な場合に特に適しています。ただし、現在、インデックス データベースの構築とクエリ検索の実行に関する具体的な方法やルールは、検索エンジンごとに大きく異なります。メタ検索ツールの検索効果。
第二に、検索エンジン実装のためのいくつかの主要なテクノロジー
2.1 蜘蛛
Web スパイダーは次の方法で実装できます。
(1) まず広さを基本とする。幅優先ベースのアルゴリズムは、リンクが見つかった順にリンクにアクセスします。これは、すべてのウェブ スパイダーの中で最も単純な戦略です。
(2) 深さを優先します。深さ優先の考え方に基づいて、選択された条件に従ってWebページと検索トピック間の類似度が計算され、最も類似度が高いリンクが検索対象として選択されます。類似度の計算プロセスでは通常、コサインが使用されます。計算に使用されます。
(3) ページの評価に基づきます。 Web ページのランキングに基づいて、Web ページの評価をコンテンツと組み合わせて検索された文書コレクションを評価し、計算された結果を使用して、最も高い評価を持つリンクが次の検索オブジェクトとして選択されます。
(4) インフォスパイダー。 InfoSpider は、進化したキーワード テーブルとニューラル ネットワーク手法を使用して、トピックに関連する Web ページの類似性を計算し、計算結果に基づいて次の検索対象を決定します。ドキュメントの取得に費やされたコストは、エージェントのエネルギーを変更し、次の検索対象を決定します。エネルギー レベルに基づいてエージェントを元に戻す、再生する、または存続させることができます。
2.2 Webページの重要度の判断
Web ページの重要性を判断するには主に 2 つの方法があり、1 つはリンクに基づくものです。
もう 1 つは類似性に基づく方法です。
リンク情報とリンク先オブジェクトとの間には、リンク方式に基づく計算に基づく何らかの信頼できるマッピング関係が存在する必要がある。アプリケーション中によく使用されるのは次のとおりです。
(1) 次数: この Web ページを指すリンク ターゲットを含む Web ページの数。
(2) 出次数: この Web ページからリンクされている Web ページのリンクの数。
(3) ページランク: ユーザーがいつでも Web ページを訪問する可能性を指します。
この方法は広く使用されており、非常に効果的です。
類似度に基づく計算では、通常、ベクトル空間モデルを使用してクエリ文字列とテキストをベクトルに変換し、テキストとクエリ文字列の間の類似性を評価します。
2.3 検索エンジンハードウェアシステムの確立
検索エンジンのハードウェア システムはシステム全体のバックボーンであり、クエリ速度を向上させるために、一般に Google のサーバーは分散構造を採用しており、高速化するために並列テクノロジも使用されています。実行速度。さらに、インデックス データベースのハードウェア設計も非常に重要であり、データ アクセス速度の向上に不可欠です。
第三に、検索エンジンの対抗開発傾向
将来の検索エンジンは次のような特徴を持つようになります。
(1) インターネット上でほぼすべての情報を収集できる。
(2) 一部の違法な情報はブロックできます。
(3)再現率・正解率の向上
(4) テキストの検索語を認識できるだけでなく、画像、音声、ビデオなども認識できます。
(5) 情報の更新が速くなります。
(6) クロスデータベースクエリへの便利な導入。
(7) インタラクティブなインターフェースは人間味があり、個人化されています。
(8) インテリジェントな検索が実現できる。
(9) モバイル検索は大きく進歩する。
4番目、まとめ
この記事では、検索エンジンについて詳しく説明し、その主要なテクノロジーの実装を分析し、テクノロジーの発展と人々のニーズの向上に伴い、検索エンジンはますますインテリジェントになり、より効率的になるでしょう。そして実用的。