ansj_seg 다운로드 - ansj_seg 소스 코드 다운로드

ansj_seg

자바 소스 코드

ansj_seg

다운로드

Ansj 중국어 단어 분할

돕다

개발 문서: 버전 3.x 이하, 버전 5.x 이하

요약

이는 n-Gram+CRF+HMM을 기반으로 한 중국어 단어 분할의 Java 구현입니다.

단어 분할 속도는 초당 약 200만 단어에 달하며(mac air에서 테스트) 정확도는 96% 이상에 달합니다.

현재 중국어 단어 분할, 중국어 이름 인식, 사용자 정의 사전, 키워드 추출, 자동 요약, 키워드 태깅 등의 기능이 구현되었습니다.

자연어 처리 등 다양한 측면에 적용할 수 있으며, 높은 단어 분할 효과가 요구되는 다양한 프로젝트에 적합합니다.

메이븐

        
        <dependency>
            <groupId>org.ansj</groupId>
            <artifactId>ansj_seg</artifactId>
            <version>5.1.1</version>
        </dependency>

데모 전화

처음으로 다운로드하고 테스트 효과를 테스트하려는 경우 이 간단한 인터페이스를 호출할 수 있습니다.


 String str = "欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我.我一定尽我所能.帮助大家.ansj_seg更快,更准,更自由!" ;
 System.out.println(ToAnalysis.parse(str));
 
 欢迎/v,使用/v,ansj/en,_,seg/en,,,(,ansj/en,中文/nz,分词/n,),在/p,这里/r,如果/c,你/r,遇到/v,什么/r,问题/n,都/d,可以/v,联系/v,我/r,./m,我/r,一定/d,尽我所能/l,./m,帮助/v,大家/r,./m,ansj/en,_,seg/en,更快/d,,,更/d,准/a,,,更/d,自由/a,!

우리와 함께하세요

누군가 나를 도와줄 수 있더라도 나는 그것에 대해 오랫동안 생각해 왔습니다. 적어드릴테니 관심있으시거나 열정있으시면 연락주세요.

보충 문서, 호출 예제 및 지침 추가
예를 들어 ID 카드 번호 인식과 같은 일부 일반 인식을 추가합니다. 현재 완료되지 않은 기능에는时间识别, IP地址识别,邮箱识别,网址识别,词性识别등이 포함됩니다.
더욱 최적화된 CRF 모델을 제공합니다. ansj의 기본 모델을 교체합니다.
보충 테스트 사례, 여러 곳에서 불완전한 테스트. 관심이 있으시면 도움을 받으실 수 있습니다!
이름 인식 모델을 재구성합니다. 조직 이름 인식과 같은 모델을 추가합니다.
구문 및 문법 분석 추가
lstm의 단어 분할 방법 구현
부족한 부분을 채워보세요..

확장하다

추가 정보