ansj_seg
ansj_seg
هذا تطبيق جافا لتجزئة الكلمات الصينية استنادًا إلى n-Gram+CRF+HMM.
تصل سرعة تجزئة الكلمات إلى حوالي 2 مليون كلمة في الثانية (تم اختبارها على نظام mac air)، ويمكن أن تصل الدقة إلى أكثر من 96%.
حاليًا، تم تنفيذ وظائف مثل تجزئة الكلمات الصينية، والتعرف على الأسماء الصينية، والقواميس المعرفة من قبل المستخدم، واستخراج الكلمات الرئيسية، والتلخيص التلقائي، ووضع علامات على الكلمات الرئيسية.
يمكن تطبيقه على معالجة اللغة الطبيعية وجوانب أخرى، وهو مناسب لمختلف المشاريع التي تتطلب تأثيرات عالية لتجزئة الكلمات.
<dependency>
<groupId>org.ansj</groupId>
<artifactId>ansj_seg</artifactId>
<version>5.1.1</version>
</dependency>
إذا قمت بالتنزيل لأول مرة وتريد فقط اختبار تأثير الاختبار، فيمكنك استدعاء هذه الواجهة البسيطة
String str = "欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我.我一定尽我所能.帮助大家.ansj_seg更快,更准,更自由!" ;
System.out.println(ToAnalysis.parse(str));
欢迎/v,使用/v,ansj/en,_,seg/en,,,(,ansj/en,中文/nz,分词/n,),在/p,这里/r,如果/c,你/r,遇到/v,什么/r,问题/n,都/d,可以/v,联系/v,我/r,./m,我/r,一定/d,尽我所能/l,./m,帮助/v,大家/r,./m,ansj/en,_,seg/en,更快/d,,,更/d,准/a,,,更/d,自由/a,!
لقد كنت أفكر في ذلك لفترة طويلة، بغض النظر عما إذا كان أي شخص يمكن أن يساعدني. سأكتبها إذا كنت مهتمًا أو متحمسًا، يمكنك الاتصال بي.
时间识别
، IP地址识别
،邮箱识别
،网址识别
،词性识别
، وما إلى ذلك...