IKAnalyzer es un conjunto de herramientas de segmentación de palabras chinas ligero y de código abierto desarrollado en base al lenguaje Java. Desde el lanzamiento de la versión 1.0 en diciembre de 2006, IKAnalyzer ha lanzado 4 versiones principales. Inicialmente, era un componente de segmentación de palabras chinas basado en el proyecto de código abierto Luence, que combinaba segmentación de palabras de diccionario y algoritmos de análisis gramatical. A partir de la versión 3.0, IK se ha convertido en un componente público de segmentación de palabras para Java, independiente del proyecto Lucene, y proporciona una implementación optimizada predeterminada de Lucene. En la versión de 2012, IK implementó un algoritmo simple de eliminación de ambigüedades en la segmentación de palabras, lo que marcó la evolución del segmentador de palabras de IK desde una simple segmentación de diccionario hasta una segmentación semántica simulada de palabras.
Características de IKAnalyzer2012:
Adopta una "iteración directa del algoritmo de segmentación más fino" única y admite dos modos de segmentación: segmentación de palabras inteligente y detallada;
En el entorno del sistema: Core2i73.4G de doble núcleo, memoria 4G, ventana de 764 bits, prueba de entorno de PC ordinaria SunJDK1.6_2964 bits, IK2012 tiene una capacidad de procesamiento de alta velocidad de 1,6 millones de palabras/segundo (3000 KB/S).
La versión 2012 del modo de segmentación inteligente de palabras admite el procesamiento de desambiguación de segmentación de palabras simple y la salida de fusión de cuantificadores.
Adopta un modo de análisis de subprocesador múltiple, admite: procesamiento de segmentación de palabras de letras en inglés, números, vocabulario chino, etc., es compatible con el almacenamiento de diccionario optimizado de caracteres coreanos y japoneses y ocupa menos memoria. Admite definiciones extendidas del diccionario del usuario. En particular, en la versión 2012, el diccionario admite palabras mixtas en chino, inglés y digital.