検索エンジンの原理の簡単な分析: ファイルマッチングと最初のサブセットスクリーニング

著者：Eve Cole 更新時間：2011-03-21 16:26:40

ファイルのマッチングと最初のサブセットの選択は、検索エンジンのランキングプロセスにおいて非常に重要な 2 つの側面です。今日は、これら 2 つの側面についての基本的な概要を説明します。これらは私たちとは何の関係もないように見えますが、将来の Web サイトの構築と最適化にとって一定の指針となる重要な原則については、皆さんももっと学ぶべきです。もちろん、間違いがある場合は、これらは私自身の要約の一部にすぎません。 , 修正をお願いします。

検索エンジンが前処理の最初の数段階を通過した後、検索エンジンは単語単位のキーワードのセットを取得します。これまでは、検索エンジンは最初に複数のキーワードに対応する 1 つのファイルを取得していましたが、そのようなクエリ効率は低すぎて現実的ではなかったため、検索エンジンはこれらのファイルを逆マッピングし、結果は複数のキーワードに対応する 1 つのキーワードでした。このようにして、ユーザーがあるキーワードを検索すると、そのキーワードに対応するすべてのファイルに対して計算と照合が実行され、最良の検索結果がユーザーに返されます。この一般的なプロセスを理解したら、今日の 2 つの主要な側面の共有を始めましょう。

1 つ目はファイルマッチングです。検索エンジンスパイダーは常に巡回して取得しており、取得したデータを常に並べ替え、要約し、保存しています。これらの処理は、ユーザーが検索するときに実行されるのではなく、ユーザーが特定のキーワードを検索するときに、インターネットをリアルタイムで検索するのではなく、検索エンジン自体のデータベース内でのみ検索します。すべてのウェブサイトで。よりわかりやすく表現するために、簡単な図で説明します。

この図は、一般的な転置インデックスの高速マッチングファイルテーブルです。ユーザーが「キーワード 1 キーワード 16」を検索すると、検索エンジンはこれら 2 つの単語に対応するすべてのファイルで単純な計算とマッチングを実行し、キーワード 1 を含むファイルを見つけます。キーワード 16 の全ページも含まれています。

2 つ目は、最初のサブセットスクリーニングです。サブセットは、ユーザーのニーズをより迅速に満たすためのものであり、検索エンジンは関連するすべてのページから選択する必要があり、わずかに高い重みを持つページのみを計算してユーザーに返します。多くの場合、初期サブセットと呼ばれます。特定のキーワードを検索すると、そのキーワードを含むページの数が膨大になり、場合によっては数十万、数百万にも及ぶことが想像できます。検索エンジンがこのような大量のデータから照合すると、明らかに時間がかかります。ユーザーのニーズに応えるために、実際には検索エンジンは重みの高いページのみを選択して照合しますが、どのようなページが重みが高いかを判断します。検索エンジンの条件を満たすために？これには、コンテンツおよびページ関連要素のさまざまな側面 (外部要因と内部要因の両方) の影響が含まれます。この問題はこの記事の要約の焦点ではありません。今後の記事でゆっくりと共有していきます。

通常、検索を行う場合、すべての検索結果を 1 つずつ見ることはできません。通常、検索エンジンから返される関連する結果は数多くありますが、最初の数ページ、さらには上位の数ページだけを見ることになります。したがって、ユーザーの検索習慣は変化しており、ユーザーが必要な情報をどのように検索できるかが常に大きな課題に直面しています。ことをしようとしている。

ここまでで、ファイルマッチングと最初のサブセットスクリーニングを通じて、検索エンジンの基本原則をいくつか説明しました。もちろん、技術的に関与する必要があることはさらに多く、考慮すべきすべての側面はより包括的で複雑です。これらは、すべての人のために一般原則を要約したものです。検索エンジンのあらゆる側面を理解することで、Web サイトの構築と検索エンジンの最適化において一定の指導的な役割を果たすことができます。

さて、この記事はこれで終わりです。今後も要約して共有していきます。この記事の出典: 北京 SEO、ウェブサイト: http://www.seostudy.org/ 、転載の際は著作権を保持してください。ありがとうございます。

北京SEOの貢献に感謝します

検索エンジンの原理の簡単な分析: ファイル マッチングと最初のサブセット スクリーニング

検索エンジンの原理の簡単な分析: ファイルマッチングと最初のサブセットスクリーニング