إن فهم تقنية تجزئة الكلمات في محرك البحث له أهمية كبيرة في عمل تحسين محركات البحث لدينا، سواء كان ذلك يتعلق بتخطيط الكلمات الرئيسية أو بنية الارتباط، فهو يرتبط ارتباطًا وثيقًا بتجزئة الكلمات. هنا سيتحدث شياو هان عن تجزئة الكلمات الصينية في بايدو (بالطبع لا يقتصر الأمر على بايدو، فمحركات البحث الأخرى مماثلة). تنقسم هذه المقالة إلى قسمين، الأول هو استخراج الشروحات الموجودة حول تجزئة الكلمات، ثم إضافة أفكاري الموسعة حول تجزئة الكلمات.
ما هو تجزئة الكلمات الصينية؟
نعلم جميعًا أن الجمل الإنجليزية تتكون من كلمات مفصولة بمسافات، لذا فإن تجزئة الكلمات أكثر ملاءمة، ومع ذلك، تتكون الجمل الصينية من أحرف صينية متصلة واحدًا تلو الآخر، لذا فهي معقدة نسبيًا. يشير تجزئة الكلمات الصينية إلى عملية تقطيع الجملة الصينية إلى كلمات فردية وإعادة تجميعها في تسلسل كلمات وفقًا لقواعد معينة. وهذا ما يسمى أيضًا "تجزئة الكلمات الصينية".
يلعب تجزئة الكلمات دورًا كبيرًا في محركات البحث وهو أساس التنقيب عن النصوص ويمكن أن يساعد البرامج في التعرف على معنى الجمل تلقائيًا لتحقيق درجة عالية من المطابقة في نتائج البحث. تؤثر جودة تجزئة الكلمات بشكل مباشر على دقة نتائج البحث . في الوقت الحاضر، تستخدم أساليب تجزئة الكلمات في محرك البحث بشكل أساسي مطابقة القاموس والإحصائيات.
1. طريقة تجزئة الكلمات على أساس مطابقة القاموس
تتطلب هذه الطريقة أولاً قاموسًا كبيرًا جدًا، وهو عبارة عن مكتبة فهرس لتجزئة الكلمات، ثم تقوم بمطابقة السلسلة المراد تقسيمها مع الكلمات الموجودة في المعجم وفقًا لقواعد معينة أربع طرق للمطابقة:
1. إعادة توجيه طريقة المطابقة القصوى (الاتجاه من اليسار إلى اليمين)؛
2. طريقة المطابقة القصوى العكسية (الاتجاه من اليمين إلى اليسار)؛
3. الحد الأدنى من التجزئة (تقليل عدد الكلمات في كل جملة)؛
4. طريقة المطابقة القصوى ثنائية الاتجاه (المسح مرتين من اليسار إلى اليمين ومن اليمين إلى اليسار)
عادة، تستخدم محركات البحث مجموعة من الأساليب. لكن هذه الطريقة تجلب أيضًا صعوبات لمحركات البحث، مثل التعامل مع الغموض (المفتاح هو اتساع وعمق لغتنا الصينية). ومن أجل تحسين دقة المطابقة، ستقوم محركات البحث أيضًا بمحاكاة الفهم البشري للجمل لتحقيق التعرف على الكلمات . تأثير. الفكرة الأساسية هي إجراء التحليل النحوي والدلالي أثناء تجزئة الكلمات، واستخدام المعلومات النحوية والمعلومات الدلالية للتعامل مع الغموض. يتضمن عادةً ثلاثة أجزاء: النظام الفرعي لتجزئة الكلمات، والنظام الفرعي لبناء الجملة والدلالات، وجزء التحكم الشامل. في ظل تنسيق جزء التحكم الشامل، يمكن للنظام الفرعي لتجزئة الكلمات الحصول على معلومات نحوية ودلالية حول الكلمات والجمل وما إلى ذلك للحكم على غموض تجزئة الكلمات، أي أنه يحاكي عملية الفهم البشري للجمل. تتطلب طريقة تجزئة الكلمات استخدام الكثير من المعرفة والمعلومات اللغوية، كما أن محركات البحث لدينا تتحسن باستمرار.
2. طريقة تجزئة الكلمات على أساس الإحصائيات
على الرغم من أن قاموس تجزئة الكلمات يحل العديد من المشكلات، إلا أنه لا يزال بعيدًا عن أن يكون كافيًا، ويجب أن يتمتع محرك البحث أيضًا بالقدرة على اكتشاف كلمات جديدة بشكل مستمر وتحديد ما إذا كانت كلمة منفصلة عن طريق حساب احتمالية ظهور الكلمات المجاورة. لذلك، كلما زاد السياق لديك، كلما كان فهمك للجملة أكثر دقة، وكلما أصبح تجزئة الكلمة أكثر دقة. على سبيل المثال، قد تتم مطابقة عبارة "تحسين محرك البحث" في القاموس على النحو التالي: بحث/محرك/تحسين، بحث/فهرس/محرك/تحسين، ولكن بعد حسابات الاحتمالات اللاحقة، وجد أن عبارة "تحسين محرك البحث" متجاورة في السياق إذا ظهرت كثيرًا، فسيتم إضافة الكلمة إلى فهرس الكلمات بناءً على الإحصائيات.
تطبيق تجزئة الكلمات الصينية
تعد دقة تجزئة الكلمات مهمة جدًا لمحركات البحث، ولكن إذا كانت سرعة تجزئة الكلمات بطيئة جدًا، مهما كانت الدقة عالية، فلن تكون قابلة للاستخدام لمحركات البحث، لأن محركات البحث تحتاج إلى معالجة مئات الملايين من صفحات الويب إذا كان تجزئة الكلمات يستهلك الوقت، فسيؤثر ذلك بشكل خطير على سرعة تحديث محتوى محرك البحث. لذلك، بالنسبة لمحركات البحث، يجب أن تلبي دقة وسرعة تجزئة الكلمات متطلبات عالية جدًا.
بالنسبة لنا نحن ممارسي تحسين محركات البحث (SEO)، يجب علينا إتقان مبادئ وأساليب تجزئة الكلمات، حتى نتمكن من تصميم موقعنا الإلكتروني بحيث تتمكن محركات البحث من تحديد مدى ملاءمة موضوعه بسهولة. على سبيل المثال، يدور موقعنا حول تدريب تحسين محركات البحث (SEO). عندما يبحث المستخدم عن هذه الكلمة، سيقوم محرك البحث أولاً بتقسيمها، مثل "SEO" و"تدريب"، ثم مطابقتها بشكل منفصل في قاعدة بيانات الفهرس. هناك نقطة أخرى متضمنة هنا، وهي أيضًا ملخص خاص بي، بعد كل تجزئة للكلمة، يوجد موضوع وحال. عادة، تتم مطابقة الموضوع أولاً، ثم تتم مطابقة الظرف الموضوع هنا، لذلك يتم مطابقته أولا، ثم ظرف التدريب. لذلك، يُترك الأمر للجميع للتفكير في كيفية تصميم موقعنا وتنظيمه.
المؤلف: قام شياو هان بنشر مدونة Xiao Han SEO لأول مرة،
العنوان الأصلي: http://www.xiaohan86.com/2011061149.html يرجى الإشارة إلى المصدر عند إعادة الطباعة.
شكرًا لك شياو هان على مساهمتك