一般的に、単語やフレーズが記事のキーワードになり得るかどうかは、主に、その単語やフレーズが記事の中心的なアイデアを反映できるかどうかによって決まります。キーワードと記事の間の相関関係は、主に、選択された単語またはフレーズが、特定の記事の記事の中心的なアイデアやテーマをどの程度反映しているかを示すことを目的としています。キーワードの抽出は、記事内での単語の位置、出現頻度、単語の意味的特性の影響を受けます。では、検索エンジンはキーワードと記事の相関関係をどのように判断するのでしょうか?ここでは、著者が自分の意見のいくつかから始めて、他の人にインスピレーションを与え、皆の指導を得るために使用されるべきいくつかのアイデアを持っています。
個人的には、検索エンジンは次の手順でキーワードと記事の性質を分析する必要があると考えています。
最初: 検索エンジンはまず、分析対象の Web ページを純化します。
Web ページの浄化では、主に、大量の無駄な広告、ナビゲーション バー、その他の Web ページ テンプレートのノイズ、および Web ページ内の JavaScript スクリプト、CSS タグ、その他のコンテンツなどの無意味なコンテンツが削除されます。検索エンジンがどのようなアルゴリズムを使用しているかは不明ですが、私の個人的な推定では、Web ページをさまざまなブロックに分割し、Web ページ ブロックの重要度を測定することでテーマ別コンテンツを含むブロックを特定し、このブロックの内容については、検索エンジンが Web ページの速度の重要性をどのように判断するかについては、別のトピックとして説明します。
2番目: 抽出されたコンテンツに対して単語分割処理を実行します。
個人的には、検索エンジンは何らかのアルゴリズムを使用してコンテンツを大まかに単語に分割し、最初に最も高い確率で N 個の分割結果を取得し、次にロール アノテーション法を使用して未登録の単語を特定し、その確率を計算したのではないかと考えています。単語はセグメント化された単語グラフに追加され、通常の単語として扱われ、最後に動的計画法が実行されて N 個の最大確率セグメンテーション アノテーション結果が選択されます。そしてそれを記録します。
3 番目: 予備的な単語分割結果から意味のない単語を削除します。
検索エンジンは、第 2 ステップで単語の分割結果を分析し、助詞や形容詞などの非実質的な単語や一部の単語を削除します。また、単一単語の単語で表現される情報は十分ではないため、除外する必要があると考えられます。 。ストップ ワードの削除は、ストップ ワード リストを作成することで実行されます。このようにして、意味のない単語を取り除くと、分析に値する意味のある単語が残ります。
4 番目: キーワードの重みを決定および分析する
記事の単語の分割と純化が完了したら、記事のすべてのキーワードを分析する必要があります。著者の考えは、検索エンジンはテキストを IV 次元の特徴ベクトルとして表し、各次元のコンポーネントはキーワードとキーワードで構成されるというものです。彼らの体重。一般に、テキスト内のキーワードの重みの決定は、主に 3 つの部分で構成され、単語の頻度、位置、単語の意味が決定に影響すると考えられています。単語やフレーズに対する単語の頻度と位置の影響は、特定のアルゴリズムを通じて決定でき、単語の意味の重みも固定アルゴリズムを使用して分析および計算されます。検索エンジンは、一定のアルゴリズムを使用して上記のキーワードを計算および分析します。最終結果を得るために。
著者は、検索エンジンが上記の手順を経て分析した結果、最終的な結果が得られると考えています。ここで著者は、検索エンジンの具体的な分析方法について次のように述べています。これはあくまで個人的な意見です。
1 つ目: キーワードの位置に基づく検索エンジンの重み付け
文書内でのキーワードの位置は、検索エンジンにとってページ上のキーワードの重みを決定する上で重要な役割を果たします。たとえば、ドメイン名は、検索エンジンによって Web サイトの最も固定された要素であると見なされます。たとえば、ユーザーが DVD というキーワードを検索する場合、DVD キーワードを含むドメイン名には固有の利点があります。タイトルは Web サイトの最も貴重なリソースであり、ユーザーに表示されるため、ファイルの最も重要で簡潔な概要であると検索エンジンは考えます。タイトルに含まれるキーワードの割合を適切に強調することは、ランキングの向上に非常に役立ちます。
2 番目: 検索エンジンはキーワードの頻度に基づいています
Web ページ内のさまざまなキーワードの総数は非常に重要な側面です。個人的には、キーワードの位置や単語頻度がキーワードの重みに大きく影響するものの、単語頻度が高いからといってその単語がキーワードとして適しているかどうかが決まるわけではないと考えています。簡単な例を挙げると、記事内で「United States」という単語の出現頻度が非常に高く、出現する位置も非常に重要ですが、この単語は依然として「United States」であるため、より重要視することはできません。 「States」は他の文書にも広く登場します。これらの文書では「United States」も頻繁に登場し、その位置も重要です。したがって、頻度は高いがキーワードとしては不適切な単語の重みは低くする必要があります。
3 番目: 文書内の重要なキーワード間の距離
個人分析では、文書内の重要なキーワード間の距離も、キーワードと記事の関連性を測定するための重要な側面となるはずです。
上記の一連の処理を行うことで、検索エンジンはそのキーワードに対して一定のスコアを与え、ユーザーがあるキーワードで検索した場合、スコアの高い記事が上位に表示される可能性が高いと著者は考えています。もちろん、これには外部リンクの影響は含まれません。上記は検索エンジンに関する個人的な見解であり、必ずしも正しいとは限りません。最後に、この記事の著作権は広州中絶病院に属します。 http://www.gzrlw.net/ 。転載は大歓迎ですが、リンクはそのままにしておいてくださいので、ご理解とご協力をお願いいたします。
siyi8473 の貢献に感謝します