Il s'agit d'une implémentation Java de la segmentation des mots chinois basée sur n-Gram+CRF+HMM.
La vitesse de segmentation des mots atteint environ 2 millions de mots par seconde (testée sur Mac Air) et la précision peut atteindre plus de 96 %.
Actuellement, des fonctions telles que la segmentation des mots chinois, la reconnaissance des noms chinois, les dictionnaires définis par l'utilisateur, l'extraction de mots-clés, le résumé automatique et le marquage des mots-clés ont été implémentées.
Il peut être appliqué au traitement du langage naturel et à d'autres aspects, et convient à divers projets nécessitant des effets de segmentation de mots élevés.
<dependency>
<groupId>org.ansj</groupId>
<artifactId>ansj_seg</artifactId>
<version>5.1.1</version>
</dependency>
Si vous téléchargez pour la première fois et souhaitez simplement tester l'effet de test, vous pouvez appeler cette interface simple
String str = "欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我.我一定尽我所能.帮助大家.ansj_seg更快,更准,更自由!" ;
System.out.println(ToAnalysis.parse(str));
欢迎/v,使用/v,ansj/en,_,seg/en,,,(,ansj/en,中文/nz,分词/n,),在/p,这里/r,如果/c,你/r,遇到/v,什么/r,问题/n,都/d,可以/v,联系/v,我/r,./m,我/r,一定/d,尽我所能/l,./m,帮助/v,大家/r,./m,ansj/en,_,seg/en,更快/d,,,更/d,准/a,,,更/d,自由/a,!
J'y pense depuis longtemps, peu importe si quelqu'un peut m'aider. Je l'écrirai. Si vous êtes intéressé ou enthousiaste, vous pouvez me contacter.
时间识别
, IP地址识别
,邮箱识别
,网址识别
,词性识别
, etc...