IKAnalyzer는 Java 언어를 기반으로 개발된 오픈 소스 경량 중국어 단어 분할 툴킷입니다. 2006년 12월 버전 1.0이 출시된 이후 IKAnalyzer는 4가지 주요 버전을 출시했습니다. 처음에는 사전 단어 분할과 문법 분석 알고리즘을 결합한 오픈 소스 프로젝트 Luence를 기반으로 한 중국어 단어 분할 구성 요소였습니다. 버전 3.0부터 IK는 Lucene 프로젝트와 독립적으로 Java용 공개 단어 분할 구성 요소로 개발되었으며 기본적으로 최적화된 Lucene 구현을 제공합니다. 2012 버전에서 IK는 간단한 단어 분할 모호성 제거 알고리즘을 구현하여 IK 단어 분할기가 단순한 사전 분할에서 시뮬레이션된 의미론적 단어 분할로 진화했습니다.
IKAnalyzer2012 기능:
고유한 "세밀한 분할 알고리즘의 순방향 반복"을 채택하고 세밀한 단어 분할과 지능적인 단어 분할이라는 두 가지 분할 모드를 지원합니다.
시스템 환경: Core2i73.4G 듀얼 코어, 4G 메모리, window764비트, SunJDK1.6_2964비트 일반 PC 환경 테스트에서 IK2012는 160만 단어/초(3000KB/S)의 고속 처리 능력을 갖췄습니다.
지능형 단어 분할 모드의 2012 버전은 간단한 단어 분할 명확성 처리 및 수량어 병합 출력을 지원합니다.
다중 하위 프로세서 분석 모드를 채택하고 영어 문자, 숫자, 중국어 어휘 등의 단어 분할 처리를 지원하며 한국어 및 일본어 문자 최적화 사전 저장과 호환되며 메모리 공간이 더 작습니다. 사용자 사전 확장 정의를 지원합니다. 특히 2012년 버전에서는 중국어, 영어, 디지털 혼합어 사전을 지원한다.