كود تجزئة الكلمات الصينية PHP

كود تجزئة الكلمات الصينية PHP

رابط البحث

v1.0 UTF-8

لا توجد موارد

يستخدم كود تجزئة الكلمات الصينية في PHP معجمًا يعتمد على Unicode ويستخدم تجزئة الكلمات في وضع المطابقة العكسية وهو متوافق نظريًا مع نطاق أوسع من الترميزات وهو ملائم بشكل خاص لترميز UTF-8. نظرًا لأن PhpanAlogy هو نظام بدون مكونات، ستكون السرعة أبطأ قليلاً من تلك الخاصة بالمكونات، ومع ذلك، في عدد كبير من تجزئة الكلمات، نظرًا لاكتمال تحميل قاعدة بيانات الكلمات أثناء تجزئة الكلمات، كلما زاد المحتوى، زادت السرعة. هذه ظاهرة طبيعية، بالنسبة للخوادم التي تدعم PHP-APC، يدعم هذا البرنامج التخزين المؤقت للقواميس. بعد القيام بذلك، لن تكون السرعة النظرية أبطأ من برامج تجزئة الكلمات مع المكونات.

نظام تجزئة الكلمات هو طريقة تجزئة الكلمات تعتمد على مطابقة السلسلة وتسمى هذه الطريقة أيضًا طريقة تجزئة الكلمات الميكانيكية، وهي تطابق سلسلة الأحرف الصينية التي سيتم تحليلها مع الإدخالات في قاموس آلي "كبير بما فيه الكفاية" وفقًا لاستراتيجية معينة. إذا تم العثور على سلسلة في القاموس، تكون المطابقة ناجحة (يتم التعرف على الكلمة). وفقًا لاتجاهات المسح المختلفة، يمكن تقسيم طريقة تجزئة الكلمات المطابقة للسلسلة إلى مطابقة أمامية ومطابقة عكسية وفقًا لمطابقة الأولوية للأطوال المختلفة، ويمكن تقسيمها إلى مطابقة قصوى (أطول) ومطابقة دنيا (أقصر) ؛ سواء كانت مرتبطة بعملية وضع علامات على جزء من الكلام مجتمعة، يمكن تقسيمها إلى طريقة تجزئة الكلمات البسيطة والطريقة المتكاملة التي تجمع بين تجزئة الكلمات والتعليقات التوضيحية. فيما يلي العديد من طرق تجزئة الكلمات الميكانيكية شائعة الاستخدام:

1) طريقة المطابقة القصوى للأمام (الاتجاه من اليسار إلى اليمين)؛
2) طريقة المطابقة القصوى العكسية (الاتجاه من اليمين إلى اليسار)؛
3) الحد الأدنى من التجزئة (تقليل عدد الكلمات في كل جملة).

يمكن أيضًا دمج الطرق المختلفة المذكورة أعلاه مع بعضها البعض، على سبيل المثال، يمكن دمج طريقة المطابقة القصوى الأمامية وطريقة المطابقة القصوى العكسية لتشكيل طريقة مطابقة ثنائية الاتجاه. نظرًا لخصائص تكوين الكلمات الصينية المكونة من حرف واحد، نادرًا ما يتم استخدام الحد الأدنى من المطابقة الأمامية والحد الأدنى العكسي بشكل عام. بشكل عام، دقة التجزئة للمطابقة العكسية أعلى قليلاً من دقة المطابقة الأمامية، ويتم مواجهة عدد أقل من الغموض. تظهر النتائج الإحصائية أن معدل الخطأ في استخدام الحد الأقصى للمطابقة الأمامية هو 1/169، ومعدل الخطأ في استخدام الحد الأقصى للمطابقة العكسية هو 1/245. ومع ذلك، فإن هذه الدقة بعيدة كل البعد عن تلبية الاحتياجات الفعلية. تستخدم جميع أنظمة تجزئة الكلمات المستخدمة فعليًا تجزئة الكلمات ميكانيكيًا كطريقة تجزئة أولية، ومن الضروري تحسين دقة التجزئة باستخدام معلومات لغوية أخرى متنوعة.

تتمثل إحدى الطرق في تحسين طريقة المسح، والتي تسمى مسح الميزات أو تجزئة العلامات، وهي تعطي الأولوية لتحديد وتجزئة بعض الكلمات ذات الخصائص الواضحة في السلسلة المراد تحليلها. باستخدام هذه الكلمات كنقاط توقف، يمكن تقسيم السلسلة الأصلية إلى كلمة ميكانيكية يتم إجراء التجزئة لسلاسل أصغر لتقليل معدل الخطأ المطابق. هناك طريقة أخرى تتمثل في الجمع بين تجزئة الكلمات ووضع علامات على جزء من الكلام، واستخدام معلومات جزء من الكلام الغنية للمساعدة في اتخاذ قرارات تجزئة الكلمات، وبالتالي التحقق من نتائج تجزئة الكلمات وضبطها أثناء عملية وضع العلامات، وبالتالي تحسين دقة بشكل كبير التجزئة.

يوسع

معلومات إضافية