إن خوارزمية TF-IDF معروفة جيدًا لدى العديد من العاملين في مجال تحسين محركات البحث (SEO) وهي تقنية ترجيح شائعة الاستخدام لاسترجاع المعلومات واستكشافها، عند تطبيقها على تحليل صفحة الويب، فإنها تزن الكلمات الرئيسية ذات الصلة في صفحة الويب وتحلل العديد من صفحات الويب يتم إعطاء أوزان الكلمات الرئيسية لصفحة الويب ذات الصلة بكلمة رئيسية معينة في التصنيف، ويتم توفير الأساس العلمي في خوارزمية الفرز النهائية.
قم أولاً بإلقاء نظرة على صيغة TF*IDF: قيمة TF*IDF = TF×IDF (TF مرات IDF) = 1+log TF(t,d) ×IDF(t) = 1+log TF(t,d) × سجل (N/DF(ر)). لماذا يجب علينا تحليل هذه الصيغة لأنه كلما زادت قيمة TF-IDF لصفحة الويب، كلما كان محتوى النص وكلمات الفهرس في صفحة الويب أكثر صلة، كلما زاد الوزن الذي يمكن أن تحصل عليه في محرك البحث، والذي يمكن أن يوفره؟ ترتيب أفضل لصفحات الويب اللاحقة دعم كبير.
يشير تردد مصطلح TF (تردد المصطلح) في TF*IDF إلى تكرار حدوث المصطلح في المستند، بينما يشير تكرار مستند IDF العكسي (تردد المستند العكسي) إلى أنه إذا كان عدد المستندات التي تحتوي على المصطلح t أقل، فسيكون IDF أكبر. يوضح هذا أن الإدخال t يتمتع بقدرة جيدة على تمييز الفئة. يمكن كتابة IDF المعبر عنه بالصيغة على النحو التالي: IDF(t) = log(N / DF(t)). يمثل DF(t) عدد المستندات التي تحتوي على مصطلح بحث معين (يمثله t)، ويمثل N إجمالي عدد صفحات الويب على الإنترنت.
من الصعب فهم هذه المفاهيم بشكل كامل، دعني أعطيك مثالاً حتى تتمكن من فهمها جيدًا.
استخدام TF-IDF لشرح ظاهرة التصنيف "تشخيص تحسين محركات البحث".
على سبيل المثال، بالنسبة لتصنيف صفحة الويب للكلمة الرئيسية "تشخيص تحسين محركات البحث"، قمنا بفحص بعض تحليلات عرض تكرار الكلمات للكلمات المرتبطة بهذه الكلمة في ثلاثة من أفضل عشرة مواقع ويب:
المرتبة الثانية هي تشخيص تحسين محركات البحث (SEO) لـ A5، حيث أن تكرار كلمات "SEO" و"تشخيص" هو 41 و46 على التوالي، وتكرار كلمات "تشخيص تحسين محركات البحث" هو 20؛
الموقع الذي احتل المرتبة الثالثة هو شركة في تشانغشا، وعدد مرات تكرار الكلمات "SEO" و"التشخيص" هو 12 و4 على التوالي، وعدد مرات تكرار الكلمات "SEO Diagnosis" هو 1؛
وتحتل مدونة My Smell the Rose المرتبة العاشرة بين المواقع الإلكترونية، حيث أن تكرار كلمة "SEO" هو الأعلى، إذ يصل إلى 84، وتكرار كلمة "تشخيص" هو 7، وتكرار كلمة "تشخيص SEO" هو 4.
يظهر البحث عن "تشخيص تحسين محركات البحث" حوالي 1,530,000 صفحة. "SEO" و"التشخيص" هما الحد الأعلى لـ Baidu وهو حوالي 100,000,000، مع N = 1000 مليار. ولذلك، يتم حساب قيم TF*IDF لثلاث كلمات رئيسية في ثلاث صفحات ويب على النحو التالي:
1. قم أولاً بحساب قيم IDF المكونة من ثلاث كلمات:
SEO: جيش الدفاع الإسرائيلي= سجل(N / DF(t))= سجل(10000/1)=4
التشخيص: جيش الدفاع الإسرائيلي = سجل (N / DF(t))= سجل (10000/1) = 4
تشخيص تحسين محركات البحث: IDF= log(N / DF(t))= log(10000/0.015)= 7-log15≈6
2. احسب قيمة TF لثلاث كلمات:
قيمة TF للكلمة الرئيسية SEO للمحطات الثلاث:
تشانغشا: TF = سجل (TF (t، d)) = log12≈1.1
A5: TF = سجل (TF(t,d))= log41≈1.64
شم الوردة: TF= log(TF(t,d))= log84≈1.92
قيمة TF لتشخيص الكلمات الرئيسية للمحطات الثلاث:
تشانغشا: TF = سجل (TF (t، d)) = log4≈0.63
A5: TF = سجل (TF (t، d)) = log46≈1.68
شم الوردة: TF= log(TF(t,d))= log7≈0.84
قيمة TF لتشخيص الكلمات الرئيسية SEO لثلاث محطات:
تشانغشا: TF= log(TF(t,d))= log1=0
A5: TF = سجل (TF(t,d))= log20≈1.45
شم الوردة: TF= log(TF(t,d))= log4≈0.63
3. قيم TF*IDF لثلاث كلمات من ثلاثة مواقع هي:
من الجدول أعلاه، يمكننا أن نرى بوضوح أن مدونتي "SEO" تحتوي على أعلى قيمة TF*IDF، وأن "التشخيص" و"تشخيص SEO" لشبكة مشرفي المواقع A5 لها أعلى قيمة TF*IDF.
إذا نظرت بشكل بحت إلى الارتباط المحسوب من قيمة TF*IDF، فإن تصنيف كلمة "تشخيص تحسين محركات البحث" هو الأعلى ويجب أن تحصل شبكة مشرفي المواقع A5 على تصنيف أفضل، ويجب أن تكون مدونتي بين الاثنين (التصنيف اليوم قبل أن يكون الأمس بالفعل بين الاثنين)، يجب أن تكون محطة تشانغشا في النهاية، ولكن يبدو أن هناك فجوة معينة بين النتائج الفعلية. يوضح هذا أن هناك عوامل أخرى أكثر أهمية في تصنيف صفحات موقع الويب، مثل الوزن الإجمالي للموقع، ووزن صفحات الويب الفردية وجودتها، والروابط الخارجية، وتفاعل المستخدم (أي تجربة المستخدم)، والتي نحتاج إلى أخذها في الاعتبار.
بالإضافة إلى ذلك، بمقارنة قيمة TF*IDF لنفس الموقع، تحتاج محطة Changsha ومدونتي Xiaoxiangqiangwei إلى تحسين تصنيفاتها. متطلبات تصنيف الكلمة الرئيسية "SEO" مرتفعة نسبيًا، ويلعب تصنيف "SEO" دورًا حاسمًا. و A5 يلعب ترتيب "تشخيص تحسين محركات البحث" في موقع الويب الخاص بمشرف الموقع دورًا حاسمًا، ويكون لترتيب الكلمة الرئيسية "SEO" تأثير أقل على تقلبات التصنيف الخاصة بها. هناك بعض الأساس لذلك، على سبيل المثال، في أول أمس، احتلت مدونتي "SEO Diagnosis" المرتبة الثالثة في ذلك الوقت، حيث تم تصنيف الكلمة الرئيسية "SEO" في الصفحة 10. والآن انخفضت إلى الصفحة 23، وتراجع الترتيب. انخفض إلى المركز العاشر، لذلك أستخدم TF*IDF أكثر. يمكن أن يساعدنا البحث في اكتشاف العديد من ظواهر تصنيف الكلمات الرئيسية وصياغة إستراتيجيات تحسين محركات البحث المستهدفة.
بالطبع، يعتمد هذا الحساب على الحالة المثالية، ولكن يمكنه أيضًا تفسير أسباب بعض ظواهر تحسين محركات البحث (SEO). طالما أننا نستطيع إتقان الفكرة الأساسية لخوارزمية TF*IDF ثم تطبيقها على تحسين موقع الويب، فسوف نفعل ذلك بالتأكيد نكون قادرين على تحسين موقع الويب بشكل أفضل، مثل مدونتي، من خلال تقليل تأثير كلمة "SEO" على تصنيفات موقع الويب، وقد نتمكن من التحكم بشكل أفضل في تصنيف الكلمة الرئيسية "تشخيص تحسين محركات البحث" على صفحة الويب.
تم نشر هذه المقالة بواسطة Xu Ziyu، محرر شبكة البحث Hangzhou SEO ( http://www.soxunseo.com ). نرحب بإعادة الطباعة للجميع. يرجى الاحتفاظ بهذا الرابط عند إعادة الطباعة. شكرًا لك على تعاونك.
(المحرر: يانغ يانغ) المساحة الشخصية للمؤلف Xu Ziyu