TF-IDF アルゴリズムは、多くのプロの SEO ワーカーによく知られており、Web ページ分析に適用すると、Web ページ内の関連キーワードに重み付けを行い、多くの Web ページを分析します。ランキングにおける特定のキーワードに関連する Web ページのキーワードの重みが与えられ、最終的な並べ替えアルゴリズムには科学的根拠が与えられます。
まず、TF*IDF の式を見てみましょう。 TF*IDF 値 = TF×IDF (TF 倍 IDF) = 1+log TF(t,d) ×IDF(t) = 1+log TF(t,d) ×ログ (N/DF(t))。なぜこの式を分析する必要があるのでしょうか? Web ページの TF-IDF 値が大きいほど、Web ページ内のテキスト コンテンツとインデックス ワードの関連性が高くなり、検索エンジンで得られる重みが高くなります。後の Web ページのランキングが向上します。
TF*IDF の TF 用語頻度 (Term Frequency) は、文書内の用語の出現頻度を示します。一方、IDF 逆文書頻度 (Inverse Document Frequency) は、用語 t を含む文書の数が少ない場合、IDF が大きくなることを示します。これは、エントリ t が優れたカテゴリ識別能力を持っていることを示しています。式で表される IDF は、IDF(t) = log(N / DF(t)) と書くことができます。 DF(t) は、特定の検索語 (t で表される) を含む文書の数を表し、N はインターネット上の Web ページの総数を表します。
これらの概念を完全に理解するのは難しいので、よく理解できるように例を挙げてみましょう。
TF-IDFを使って「SEO診断」のランキング現象を解説する
たとえば、「SEO 診断」というキーワードの Web ページのランキングについては、上位 10 の Web サイトのうち 3 つについて、この単語に関連する単語の単語頻度表示分析を確認しました。
2位はA5のSEO診断で、「SEO」「診断」の単語頻度はそれぞれ41、46、「SEO診断」の単語頻度は20。
3位のウェブサイトは長沙市の企業で、「SEO」と「診断」の単語頻度はそれぞれ12と4で、「SEO診断」の単語頻度は1。
My Smell the Rose ブログは Web サイトの中で 10 位にランクされており、「SEO」の単語頻度は 84 に達し、「診断」の単語頻度は 7、「SEO 診断」の単語頻度は 4 です。
「SEO 診断」で検索すると、約 153 万ページが表示されます。「SEO」と「診断」は、N=10000 億として、Baidu の上限である約 1 億ページです。したがって、3 つの Web ページ上の 3 つのキーワードの TF*IDF 値は次のように計算されます。
1. まず、3 つの単語の IDF 値を計算します。
SEO: IDF= log(N / DF(t))= log(10000/1)=4
診断: IDF= log(N / DF(t))= log(10000/1)=4
SEO診断:IDF= log(N / DF(t))= log(10000/0.015)= 7-log15≈6
2. 3 つのワードの TF 値を計算します。
3 つのステーションのキーワード SEO の TF 値:
長沙: TF= log(TF(t,d))= log12≈1.1
A5: TF= log(TF(t,d))= log41≈1.64
バラの香りを嗅ぐ: TF= log(TF(t,d))= log84≈1.92
3局のキーワード診断のTF値:
長沙: TF= log(TF(t,d))= log4≈0.63
A5: TF= log(TF(t,d))= log46≈1.68
バラの香りを嗅ぐ: TF= log(TF(t,d))= log7≈0.84
3局のキーワードSEO診断のTF値:
長沙: TF= log(TF(t,d))= log1=0
A5: TF= log(TF(t,d))= log20≈1.45
バラの香りを嗅ぐ: TF= log(TF(t,d))= log4≈0.63
3. 3 つの Web サイトの 3 つの単語の TF*IDF 値は次のとおりです。
上の表から、私のブログ「SEO」の TF*IDF 値が最も高く、A5 Webmaster Network の「診断」と「SEO 診断」の TF*IDF 値が最も高いことが明確にわかります。
TF*IDF 値から計算された相関関係だけを見ると、「SEO 診断」という単語の順位が最も高く、私のブログはその中間に位置するはずです。昨日までは確かに 2 つの間にありました)、長沙駅が終点であるはずですが、実際の結果とは一定のギャップがあるようです。これは、Web サイトのページのランキングには、Web サイト全体の重み、個々の Web ページの重みと品質、外部リンク、ユーザー インタラクション (つまり、ユーザー エクスペリエンス) など、考慮する必要がある他のより重要な要素があることを示しています。
さらに、同じウェブサイトの TF*IDF 値を比較すると、長沙ステーションと私の Xiaoxiangqiangwei ブログは、キーワード「SEO」ランキングの要件が比較的高く、決定的な役割を果たしています。 A5 管理者向けサイトの「SEO診断」の順位が決定的な役割を果たしており、キーワード「SEO」の順位は順位変動にあまり影響しません。これにはそれなりの根拠があり、例えば、一昨日は私のブログ「SEO診断」が10ページ目にランクインしていましたが、現在は23ページ目に順位が下がっています。 10 位に下がったので、TF*IDF をさらに使用します。リサーチは、多くのキーワード ランキング現象を発見し、ターゲットを絞った SEO 最適化戦略を策定するのに役立ちます。
もちろん、この計算は理想的な状態に基づいていますが、TF*IDF アルゴリズムの基本的な考え方をマスターし、それを Web サイトの最適化に適用することができれば、一部の SEO 現象の原因も説明できます。 Web サイトのランキングに対する「SEO」という単語の影響を軽減することで、私のブログなどの Web サイトをより適切に最適化できることは間違いなく、Web ページ上のキーワード「SEO 診断」のランキングをより適切に制御できる可能性があります。
この記事は、杭州 SEO ( http://www.soxunseo.com ) 検索ネットワークの編集者である Xu Ziyu によって公開されました。転載する場合は、このリンクを保持してください。
(編集者:楊楊) 著者徐子宇のパーソナルスペース