ansj_seg
ansj_seg
이는 n-Gram+CRF+HMM을 기반으로 한 중국어 단어 분할의 Java 구현입니다.
단어 분할 속도는 초당 약 200만 단어에 달하며(mac air에서 테스트) 정확도는 96% 이상에 달합니다.
현재 중국어 단어 분할, 중국어 이름 인식, 사용자 정의 사전, 키워드 추출, 자동 요약, 키워드 태깅 등의 기능이 구현되었습니다.
자연어 처리 등 다양한 측면에 적용할 수 있으며, 높은 단어 분할 효과가 요구되는 다양한 프로젝트에 적합합니다.
<dependency>
<groupId>org.ansj</groupId>
<artifactId>ansj_seg</artifactId>
<version>5.1.1</version>
</dependency>
처음으로 다운로드하고 테스트 효과를 테스트하려는 경우 이 간단한 인터페이스를 호출할 수 있습니다.
String str = "欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我.我一定尽我所能.帮助大家.ansj_seg更快,更准,更自由!" ;
System.out.println(ToAnalysis.parse(str));
欢迎/v,使用/v,ansj/en,_,seg/en,,,(,ansj/en,中文/nz,分词/n,),在/p,这里/r,如果/c,你/r,遇到/v,什么/r,问题/n,都/d,可以/v,联系/v,我/r,./m,我/r,一定/d,尽我所能/l,./m,帮助/v,大家/r,./m,ansj/en,_,seg/en,更快/d,,,更/d,准/a,,,更/d,自由/a,!
누군가 나를 도와줄 수 있더라도 나는 그것에 대해 오랫동안 생각해 왔습니다. 적어드릴테니 관심있으시거나 열정있으시면 연락주세요.
时间识别
, IP地址识别
,邮箱识别
,网址识别
,词性识别
등이 포함됩니다.