بشكل عام، ما إذا كانت الكلمة أو العبارة يمكن أن تصبح كلمة رئيسية في المقالة يعتمد بشكل أساسي على قدرتها على عكس الفكرة المركزية للمقالة. إن الارتباط بين الكلمات الرئيسية والمقالات يهدف بشكل أساسي إلى توضيح مدى قدرة الكلمة أو العبارة المحددة على عكس الفكرة المركزية أو موضوع المقالة لمقالة معينة. يتأثر استخراج الكلمات الرئيسية بموضع الكلمة في المقالة وتكرار حدوثها والخصائص الدلالية للكلمة. إذًا، كيف تحدد محركات البحث العلاقة بين الكلمات الرئيسية والمقالات؟ وهنا ينطلق المؤلف من بعض آرائه الخاصة، وله بعض الأفكار التي ينبغي الاستفادة منها لإلهام الآخرين والحصول على توجيهات الجميع.
شخصيًا، أعتقد أنه يجب على محركات البحث تحليل الكلمات المفتاحية وطبيعة المقالة من خلال الخطوات التالية:
أولاً: يقوم محرك البحث أولاً بتنقية صفحات الويب المراد تحليلها.
تعمل تنقية صفحة الويب بشكل أساسي على إزالة عدد كبير من الإعلانات غير المفيدة وشريط التنقل وضجيج قوالب صفحة الويب الأخرى، بالإضافة إلى المحتوى الذي لا معنى له، مثل نصوص جافا سكريبت وعلامات CSS والمحتويات الأخرى في صفحة الويب. أما بالنسبة للخوارزمية التي يستخدمها محرك البحث، فلا نعرف، لكن تقديري الشخصي هو أنها تقسم صفحات الويب إلى كتل مختلفة، وتحدد الكتل التي تحتوي على محتوى موضوعي عن طريق قياس أهمية كتل صفحة الويب، ثم تستخرج باسم بالنسبة لمحتوى هذه الكتلة، أما كيفية تحديد محركات البحث لأهمية سرعة صفحة الويب، فهذا موضوع آخر.
ثانياً: إجراء معالجة تجزئة الكلمات على المحتوى المستخرج
شخصيًا، أعتقد أن محرك البحث ربما استخدم نوعًا من الخوارزمية لتقسيم المحتوى تقريبًا إلى كلمات، ثم احصل أولاً على نتائج تجزئة N ذات الاحتمالية الأعلى، ثم استخدم طريقة التعليق التوضيحي للدور لتحديد الكلمات غير المسجلة وحساب احتمالاتها تتم إضافة الكلمات إلى الرسم البياني للكلمات المجزأة، ثم يتم التعامل معها على أنها كلمات عادية، وأخيرًا يتم تنفيذ البرمجة الديناميكية لتحديد N الحد الأقصى لنتائج التعليقات التوضيحية للتجزئة. وتسجيله.
ثالثاً: إزالة الكلمات التي لا معنى لها من نتائج تجزئة الكلمات الأولية.
يقوم محرك البحث بتحليل نتائج تجزئة الكلمة في الخطوة الثانية ويزيل بعض الكلمات غير الجوهرية مثل الجزيئات الشرطية والصفات وبعض الكلمات، كما يرى أن المعلومات التي تعبر عنها الكلمات المكونة من كلمة واحدة ليست كاملة بما فيه الكفاية ويجب تصفيتها . تتم إزالة كلمة التوقف عن طريق إنشاء قائمة كلمات التوقف. وهكذا، بعد إزالة هذه الكلمات التي لا معنى لها، تبقى كلمات ذات معنى تستحق التحليل.
رابعاً: تحديد وتحليل وزن الكلمات المفتاحية
بعد الانتهاء من تجزئة الكلمات وتنقيتها، من الضروري تحليل جميع الكلمات الرئيسية للمقالة. فكرة المؤلف هي أن محرك البحث يمثل النص كمتجه سمة رباعي الأبعاد، وكل مكون بعدي يتكون من كلمات رئيسية و. أوزانهم. من المعتقد عمومًا أن تحديد وزن الكلمات الرئيسية في النص يتكون بشكل أساسي من ثلاثة أجزاء. يؤثر تكرار الكلمات وموضعها ومعنى الكلمة بشكل مشترك على القرار. ويمكن تحديد تأثير تكرار الكلمة وموضعها على الكلمات أو العبارات من خلال خوارزميات معينة، كما يتم أيضًا تحليل وحساب أوزان معنى الكلمة باستخدام خوارزميات ثابتة. يستخدم محرك البحث خوارزمية محددة لحساب وتحليل الكلمات الرئيسية المذكورة أعلاه. للحصول على النتيجة النهائية.
ويرى المؤلف أن محرك البحث سيحصل على النتيجة النهائية بعد تحليلها من خلال الخطوات المذكورة أعلاه، ويتحدث المؤلف هنا عن أسلوبه المحدد في تحليل محرك البحث، وهو مجرد رأي شخصي:
أولاً: وزن محرك البحث بناءً على موضع الكلمة الرئيسية
في المستند، يلعب موقع الكلمة الرئيسية دورًا مهمًا في تحديد وزن الكلمة الرئيسية على الصفحة لمحركات البحث. على سبيل المثال، تعتبر محركات البحث أن اسم المجال هو العامل الأكثر ثباتًا لموقع الويب. على سبيل المثال، يتمتع اسم النطاق الذي يحتوي على الكلمة الأساسية DVD بميزة متأصلة عندما يبحث المستخدمون عن الكلمة الرئيسية DVD. العنوان هو المورد الأكثر قيمة لموقع الويب. تعتقد محركات البحث أن العنوان يتم عرضه في شريط عنوان المتصفح لأنه يتم عرضه للمستخدمين، فهو الملخص الأكثر أهمية وإيجازًا للملف. يعد إبراز نسبة الكلمات الرئيسية في العنوان بشكل صحيح مفيدًا جدًا لتحسين التصنيف.
ثانياً: محركات البحث تعتمد على تكرار الكلمات المفتاحية
يعد العدد الإجمالي للكلمات الرئيسية المختلفة في صفحة الويب جانبًا مهمًا للغاية. أنا شخصياً أعتقد أنه على الرغم من أن موقع الكلمات الرئيسية وتكرارها لهما تأثير كبير على وزن الكلمات الرئيسية، إلا أن تكرار الكلمات المرتفع لا يحدد ما إذا كانت الكلمة مناسبة ككلمة رئيسية. ولإعطاء مثال بسيط، فإننا نقوم بتحسين "الولايات المتحدة" في إحدى المقالات. إن تكرار الكلمة مرتفع جدًا، كما أن الموضع الذي تظهر فيه مهم جدًا أيضًا، ومع ذلك، لا يزال من غير الممكن إعطاء هذه الكلمة وزنًا أعلى لأن "متحدة". "الولايات" تظهر أيضًا على نطاق واسع في وثائق أخرى. وفي هذه الوثائق، تظهر أيضًا كلمة "الولايات المتحدة" بشكل متكرر ويكون موقعها مهمًا أيضًا. لذلك، يجب إعطاء وزن أقل للكلمات ذات التكرار العالي ولكنها غير مناسبة ككلمات رئيسية.
ثالثاً: المسافة بين الكلمات الرئيسية المهمة في الوثيقة
التحليل الشخصي، يجب أن تكون المسافة بين الكلمات الرئيسية المهمة في المستند جانبًا مهمًا أيضًا لقياس مدى ملاءمة الكلمات الرئيسية والمقالات.
يعتقد المؤلف أنه بعد إجراء محرك البحث لسلسلة المعالجة المذكورة أعلاه، فإنه سيعطي المقالة درجة معينة لهذه الكلمة الرئيسية. عندما يبحث المستخدم عن كلمة رئيسية معينة، تكون فرصة أن يتم تصنيف المقالة ذات الدرجة العالية في المرتبة الأولى أكبر من ذلك بكثير، وبطبيعة الحال، وهذا يستبعد تأثير الروابط الخارجية. ما ورد أعلاه هو بعض الآراء الشخصية حول محركات البحث، والتي ليست بالضرورة صحيحة، وآمل أن أتمكن من التعلم منها معًا، وأخيرًا، حقوق الطبع والنشر للمقالة مملوكة لـ: مستشفى قوانغتشو للإجهاض: http://www.gzrlw.net/ . نرحب بإعادة طبعه، ولكن يرجى القيام بذلك، يرجى الاحتفاظ بالرابط، شكرًا لتفهمك وتعاونك.
بفضل siyi8473 لمساهمته