Ini adalah implementasi Java dari segmentasi kata Cina berdasarkan n-Gram+CRF+HMM.
Kecepatan segmentasi kata mencapai sekitar 2 juta kata per detik (diuji di mac air), dan akurasinya bisa mencapai lebih dari 96%.
Saat ini, fungsi seperti segmentasi kata berbahasa Mandarin, pengenalan nama berbahasa Mandarin, kamus yang ditentukan pengguna, ekstraksi kata kunci, peringkasan otomatis, dan penandaan kata kunci telah diterapkan.
Ini dapat diterapkan pada pemrosesan bahasa alami dan aspek lainnya, dan cocok untuk berbagai proyek yang memerlukan efek segmentasi kata yang tinggi.
<dependency>
<groupId>org.ansj</groupId>
<artifactId>ansj_seg</artifactId>
<version>5.1.1</version>
</dependency>
Jika Anda mengunduh untuk pertama kalinya dan hanya ingin menguji efek pengujiannya, Anda dapat memanggil antarmuka sederhana ini
String str = "欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我.我一定尽我所能.帮助大家.ansj_seg更快,更准,更自由!" ;
System.out.println(ToAnalysis.parse(str));
欢迎/v,使用/v,ansj/en,_,seg/en,,,(,ansj/en,中文/nz,分词/n,),在/p,这里/r,如果/c,你/r,遇到/v,什么/r,问题/n,都/d,可以/v,联系/v,我/r,./m,我/r,一定/d,尽我所能/l,./m,帮助/v,大家/r,./m,ansj/en,_,seg/en,更快/d,,,更/d,准/a,,,更/d,自由/a,!
Saya sudah memikirkannya sejak lama, tidak peduli apakah ada yang bisa membantu saya. Nanti saya tuliskan, jika berminat atau antusias bisa menghubungi saya.
时间识别
, IP地址识别
,邮箱识别
,网址识别
,词性识别
, dll...