ما هو تجزئة الكلمات الصينية
ما هو تجزئة الكلمات؟ ما الفرق بين تجزئة الكلمات الصينية وتجزئة الكلمات الأخرى؟ تجزئة الكلمات هي عملية إعادة دمج تسلسلات الكلمات المستمرة في تسلسلات كلمات وفقًا لمواصفات معينة. من المثال أعلاه، يمكننا أن نرى أنه في الكتابة الإنجليزية، يتم استخدام المسافات كمحددات طبيعية بين الكلمات، بينما في اللغة الصينية، يمكن تحديد الكلمات والجمل والفقرات فقط بمحددات واضحة تواجه اللغة الإنجليزية أيضًا مشكلة تقسيم العبارات، على مستوى الكلمة، فكما نرى من المثال أعلاه، فإن اللغة الصينية أكثر تعقيدًا وصعوبة من اللغة الإنجليزية.
يوجد حاليًا ثلاث خوارزميات تجزئة الكلمات الصينية السائدة:
1. طريقة تجزئة الكلمات على أساس مطابقة السلسلة
تُسمى هذه الطريقة أيضًا طريقة تجزئة الكلمات الميكانيكية، وهي تطابق سلسلة الأحرف الصينية التي سيتم تحليلها مع الإدخالات في قاموس آلي "كبير بما فيه الكفاية" وفقًا لاستراتيجية معينة ناجح (التعرف على كلمة). وفقًا لاتجاهات المسح المختلفة، يمكن تقسيم طريقة تجزئة الكلمات المطابقة للسلسلة إلى مطابقة أمامية ومطابقة عكسية وفقًا لمطابقة الأولوية للأطوال المختلفة، ويمكن تقسيمها إلى مطابقة قصوى (أطول) ومطابقة دنيا (أقصر) ؛ سواء كانت مرتبطة بعملية وضع علامات على جزء من الكلام مجتمعة، يمكن تقسيمها إلى طريقة تجزئة الكلمات البسيطة والطريقة المتكاملة التي تجمع بين تجزئة الكلمات والتعليقات التوضيحية. فيما يلي العديد من طرق تجزئة الكلمات الميكانيكية شائعة الاستخدام:
1) طريقة المطابقة القصوى للأمام (الاتجاه من اليسار إلى اليمين)؛
2) طريقة المطابقة القصوى العكسية (الاتجاه من اليمين إلى اليسار)؛
3) الحد الأدنى من التجزئة (تقليل عدد الكلمات في كل جملة).
يمكن أيضًا دمج الطرق المختلفة المذكورة أعلاه مع بعضها البعض، على سبيل المثال، يمكن دمج طريقة المطابقة القصوى الأمامية وطريقة المطابقة القصوى العكسية لتشكيل طريقة مطابقة ثنائية الاتجاه. نظرًا لخصائص تكوين الكلمات الصينية المكونة من حرف واحد، نادرًا ما يتم استخدام الحد الأدنى من المطابقة الأمامية والحد الأدنى العكسي بشكل عام. بشكل عام، دقة التجزئة للمطابقة العكسية أعلى قليلاً من دقة المطابقة الأمامية، ويتم مواجهة عدد أقل من الغموض. تظهر النتائج الإحصائية أن معدل الخطأ في استخدام الحد الأقصى للمطابقة الأمامية هو 1/169، ومعدل الخطأ في استخدام الحد الأقصى للمطابقة العكسية هو 1/245. ومع ذلك، فإن هذه الدقة بعيدة كل البعد عن تلبية الاحتياجات الفعلية. تستخدم جميع أنظمة تجزئة الكلمات المستخدمة فعليًا تجزئة الكلمات ميكانيكيًا كطريقة تجزئة أولية، ومن الضروري تحسين دقة التجزئة باستخدام معلومات لغوية أخرى متنوعة.
تتمثل إحدى الطرق في تحسين طريقة المسح، والتي تسمى مسح الميزات أو تجزئة العلامات، وهي تعطي الأولوية لتحديد وتجزئة بعض الكلمات ذات الخصائص الواضحة في السلسلة المراد تحليلها. باستخدام هذه الكلمات كنقاط توقف، يمكن تقسيم السلسلة الأصلية إلى كلمة ميكانيكية يتم إجراء التجزئة لسلاسل أصغر لتقليل معدل الخطأ المطابق. هناك طريقة أخرى تتمثل في الجمع بين تجزئة الكلمات ووضع علامات على جزء من الكلام، واستخدام معلومات جزء من الكلام الغنية للمساعدة في اتخاذ قرارات تجزئة الكلمات، وبالتالي التحقق من نتائج تجزئة الكلمات وضبطها أثناء عملية وضع العلامات، وبالتالي تحسين دقة بشكل كبير التجزئة.
2. طريقة تجزئة الكلمات على أساس الفهم
تحقق طريقة تجزئة الكلمات تأثير التعرف على الكلمات من خلال السماح للكمبيوتر بمحاكاة الفهم البشري للجمل. الفكرة الأساسية هي إجراء التحليل النحوي والدلالي أثناء تجزئة الكلمات، واستخدام المعلومات النحوية والمعلومات الدلالية للتعامل مع الغموض. ويتكون عادة من ثلاثة أجزاء: النظام الفرعي لتجزئة الكلمات، والنظام الفرعي لبناء الجملة والدلالات، وجزء التحكم الشامل. في ظل تنسيق جزء التحكم الشامل، يمكن للنظام الفرعي لتجزئة الكلمات الحصول على معلومات نحوية ودلالية حول الكلمات والجمل وما إلى ذلك للحكم على غموض تجزئة الكلمات، أي أنه يحاكي عملية الفهم البشري للجمل. تتطلب طريقة تجزئة الكلمات هذه استخدام قدر كبير من المعرفة والمعلومات اللغوية. نظرًا لعمومية وتعقيد معرفة اللغة الصينية، فمن الصعب تنظيم المعلومات اللغوية المختلفة في شكل يمكن قراءته مباشرة بواسطة الآلات، لذلك، لا يزال نظام تجزئة الكلمات القائم على الفهم في المرحلة التجريبية.
3. طريقة تجزئة الكلمات على أساس الإحصائيات
من وجهة نظر رسمية، الكلمات عبارة عن مجموعات مستقرة من الكلمات، لذلك في السياق، كلما زاد عدد الكلمات المتجاورة في نفس الوقت، زاد احتمال تكوينها لكلمة. لذلك، فإن تكرار أو احتمالية تواجد الكلمات المتجاورة بين الكلمات يمكن أن يعكس بشكل أفضل مصداقية الكلمة. يمكن حساب تكرار مجموعات الكلمات المتجاورة التي تحدث في المجموعة ويمكن حساب معلومات حدوثها المتبادل. حدد معلومات التواجد المتبادل لشخصين واحسب احتمالية التواجد المشترك للحرفين الصينيين X وY. تعكس معلومات الحدوث المتبادل مدى قرب العلاقة المركبة بين الأحرف الصينية. وعندما يكون التقارب أعلى من عتبة معينة، يمكن اعتبار أن مجموعة الكلمات هذه قد تشكل كلمة. تحتاج هذه الطريقة فقط إلى حساب تكرار مجموعات الكلمات في المجموعة ولا تحتاج إلى تقسيم القاموس، لذلك تسمى أيضًا طريقة تجزئة الكلمات الخالية من القاموس أو طريقة استخراج الكلمات الإحصائية. ومع ذلك، فإن لهذه الطريقة أيضًا بعض القيود، فهي غالبًا ما تستخرج بعض مجموعات الكلمات شائعة الاستخدام والتي تتكرر بشكل متكرر ولكنها ليست كلمات، مثل "هذا"، "واحد"، "بعض"، "بلدي"، "كثير". وما إلى ذلك، ودقة التعرف على الكلمات الشائعة ضعيفة والوقت والمكان كبيران. يجب أن تستخدم أنظمة تجزئة الكلمات الإحصائية العملية قاموس تجزئة الكلمات الأساسي (قاموس الكلمات الشائعة) لمطابقة السلسلة وتجزئة الكلمات، وفي الوقت نفسه تستخدم الأساليب الإحصائية لتحديد بعض الكلمات الجديدة، أي الجمع بين إحصائيات تكرار السلسلة ومطابقة السلسلة، والتي لا يلعب دور مطابقة تجزئة الكلمات فحسب، بل يستخدم أيضًا الأساليب الإحصائية لتحديد بعض الكلمات الجديدة، كما أنه يتميز بخصائص التجزئة السريعة والكفاءة العالية، كما أنه يستفيد من تجزئة الكلمات الخالية من القاموس والتعرف على السياق لتحديد الكلمات الجديدة إزالة الغموض تلقائيا.
بعض النقاط التي يجب ملاحظتها حول المشاركات:
1. الأداء الزمني لخوارزمية تجزئة الكلمات مرتفع نسبيًا. لا سيما أن بحث الويب اليوم يتطلب متطلبات عالية في الوقت الفعلي. ولذلك، فإن تجزئة الكلمات، التي تعد أساس معالجة المعلومات الصينية، يجب أن تستغرق أولاً أقل وقت ممكن.
2. إن تحسين دقة تجزئة الكلمات لا يؤدي بالضرورة إلى تحسين أداء الاسترجاع. بعد أن يصل تجزئة الكلمات إلى دقة معينة، لن يكون التأثير على استرجاع المعلومات الصينية واضحًا. على الرغم من أنه لا يزال هناك بعض التأثير، إلا أن هذا لم يعد يمثل عنق الزجاجة في أداء CIR. لذلك، فإن خوارزمية تجزئة الكلمات أحادية الجانب التي تسعى بشكل أعمى إلى تحقيق دقة عالية ليست مناسبة جدًا لاسترجاع المعلومات الصينية على نطاق واسع. عندما يكون هناك تعارض بين الوقت والدقة، نحتاج إلى إيجاد توازن مناسب بين الاثنين.
3. لا يزال من الممكن أن تتبع دقة التجزئة مبدأ أولوية الكلمات الطويلة، ولكن يجب إجراء المعالجة اللاحقة ذات الصلة على مستوى توسيع الاستعلام. في استرجاع المعلومات، تحتاج خوارزميات تجزئة الكلمات فقط إلى التركيز على كيفية إزالة الغموض المتبادل. بالنسبة لغموض التغطية، يمكننا استخدام الفهرسة الثانوية للقاموس وتوسيع الاستعلام لحلها.
4. تعد دقة التعرف على الكلمات غير المسجلة أكثر أهمية من معدل الاستدعاء. ومن الضروري محاولة التأكد من عدم إجراء أي مجموعات خاطئة عند تحديد الكلمات غير المسجلة، وذلك لتجنب تقسيم الكلمات غير المسجلة بشكل خاطئ. إذا تم دمج الكلمات المفردة بشكل غير صحيح في كلمات غير مسجلة، فقد لا يتم استرداد المستند المقابل بشكل صحيح.
النعت بايدو
قم أولاً بفصل الاستعلام بناءً على المحدد. "الأدوات النظرية لاسترجاع المعلومات" بعد النعت <استرجاع المعلومات، النظرية، الأدوات>.
ثم تحقق مما إذا كانت هناك سلاسل مكررة، إذا كان الأمر كذلك، فتخلص من السلاسل الإضافية واحتفظ بواحدة فقط. بعد تقسيم كلمة "نظرية الأداة النظرية" إلى <نظرية الأداة>، لا تأخذ GOOGLE في الاعتبار حساب الاندماج هذا.
ثم حدد ما إذا كانت هناك كلمات أو أرقام باللغة الإنجليزية، وإذا كان الأمر كذلك، فاحتفظ بالكلمات أو الأرقام الإنجليزية ككل واقطع الأحرف الصينية قبلها وبعدها. الاستعلام عن "تنزيل فيلم BT" بعد تجزئة الكلمة <movie, BT, download>.
إذا كانت السلسلة تحتوي فقط على أقل من أو تساوي 3 أحرف صينية، فاحتفظ بها دون تغيير. وعندما يكون طول السلسلة أكبر من 4 أحرف صينية، سيبدأ برنامج تجزئة الكلمات في Baidu في العمل ويفكك السلسلة.
أنواع خوارزمية تجزئة الكلمات: المطابقة القصوى للأمام، المطابقة القصوى العكسية، المطابقة القصوى في الاتجاهين، طريقة نموذج اللغة، خوارزمية المسار الأقصر، هناك نقطتان رئيسيتان للحكم على ما إذا كان نظام تجزئة الكلمات جيدًا أم لا وإزالة الغموض؛ والآخر هو تحديد الكلمات غير المسجلة في القاموس، على سبيل المثال، أسماء الأشخاص والأماكن والمنظمات وغيرها.
يستخدم تجزئة الكلمات في بايدو قاموسين على الأقل، أحدهما قاموس عام والآخر قاموس خاص (أسماء الأشخاص، أسماء الأماكن، الكلمات الجديدة، وما إلى ذلك). علاوة على ذلك، يقوم القاموس الخاص بقصها أولاً، ثم يتم تقسيم الأجزاء المتبقية بواسطة القاموس العادي.
يستخدم نوع خوارزمية تجزئة الكلمات في Baidu خوارزمية مطابقة قصوى ثنائية الاتجاه.
مثال: الاستعلام "Mao Zedong Beijing Hua Yanyun"، نتائج تجزئة الكلمات في Baidu: "Mao Zedong/Beijing/Beijing Hua Yanyun"
يمكن لتجزئة الكلمات في Baidu تحديد أسماء الأشخاص، ويمكنها أيضًا تحديد "Beijing Yanyun"، مما يدل على أن لديها وظيفة تحديد الكلمات غير المسجلة في القاموس.
أولاً، قم بالاستعلام عن القاموس الخاص (أسماء الأشخاص، وبعض أسماء الأماكن، وما إلى ذلك)، واقطع الأسماء الصحيحة، واعتمد استراتيجية تجزئة الكلمات في اتجاهين للأجزاء المتبقية (الحد الأقصى للمطابقة الأمامية، والحد الأقصى للمطابقة العكسية). ) نتائج التجزئة هي نفسها، وهذا يعني عدم وجود غموض، وإخراج نتائج تجزئة الكلمات مباشرة.
إذا كانت غير متناسقة، فإن نتيجة المسار الأقصر هي الإخراج، أي أنه كلما كانت الأجزاء أقل، كان ذلك أفضل. على سبيل المثال، بالمقارنة مع <كوبا، بي، الأخلاق> و<بابل القديمة، لي>، اختر الأخير، <بكين. ، هوا، يانيون> مقارنة مع <بكين يانيون>، اختر الأخير.
إذا كانت الأطوال هي نفسها، فحدد مجموعة نتائج التجزئة بكلمات مفردة أقل. "بابل القديمة البعيدة"، تم تقسيم هذا الاستعلام بواسطة بايدو إلى <بابل بعيدة، قديمة،>، بدلاً من تقسيمه إلى "بابل البعيدة/القديمة/القديمة"
إذا كانت الكلمات هي نفسها أيضًا، فحدد نتيجة تجزئة الكلمات الأمامية. الاستعلام "Wang Qiang Xiao:"، ستقوم Baidu بتقسيمه إلى "Wang/Qiang/Small" بدلاً من تقسيمه بشكل عكسي إلى "Wang/Qiang/Small"
لقد روجت بايدو دائمًا لمزاياها في المعالجة الصينية من وجهة النظر المذكورة أعلاه، لا يوجد شيء مميز في خوارزمية تجزئة الكلمات، وتأثير توضيح الغموض ليس مثاليًا، حتى لو اعتمدت بايدو خوارزمية أكثر تعقيدًا من تجزئة الكلمات المذكورة أعلاه من الصعب القول إنها ميزة. إذا قلنا إذا كان لدى Baidu ميزة، فإن ميزتها الوحيدة هي قاموسها الخاص الكبير الذي يحتوي على أسماء أشخاص (مثل Dae Jang Geum) وألقاب (مثل السيدة العجوز)، وبعض أسماء الأماكن (مثل الإمارات العربية المتحدة، وما إلى ذلك). تشير التقديرات إلى أن بايدو تتبنى المعلومات المنشورة من قبل الأوساط الأكاديمية، حيث تحدد خوارزمية التعرف على الكيانات المسماة الجديدة نسبيًا الكلمات غير المسجلة في القاموس بشكل مستمر من المجموعة، ويوسع تدريجيا هذا القاموس المتخصص. —— تأتي هذه المقالة من عنوان النشر الأصلي لمنتدى تحسين محركات البحث الصيني: http://www.web520.com/bbs/thread-2742-1-1.html
معلومات المؤلف: لاو تشين، أحد مؤسسي منتدى تحسين محركات البحث الصيني (www.web520.com/bbs)