IKAnalyzer é um kit de ferramentas de segmentação de palavras chinesas leve e de código aberto desenvolvido com base na linguagem Java. Desde o lançamento da versão 1.0 em dezembro de 2006, o IKAnalyzer lançou 4 versões principais. Inicialmente, era um componente de segmentação de palavras chinesas baseado no projeto de código aberto Luence, que combinava segmentação de palavras de dicionário e algoritmos de análise gramatical. A partir da versão 3.0, o IK se desenvolveu em um componente de segmentação de palavras públicas para Java, independente do projeto Lucene, e fornece uma implementação otimizada padrão do Lucene. Na versão 2012, IK implementou um algoritmo simples de eliminação de ambigüidade de segmentação de palavras, marcando a evolução do segmentador de palavras IK da simples segmentação de dicionário para a segmentação semântica simulada de palavras.
Recursos do IKAnalyzer2012:
Ele adota uma "iteração direta do algoritmo de segmentação mais refinado" exclusivo e oferece suporte a dois modos de segmentação: segmentação de palavras inteligente e refinada;
No ambiente do sistema: Core2i73.4G dual-core, memória 4G, janela764 bits, teste de ambiente de PC comum SunJDK1.6_2964 bits, IK2012 tem uma capacidade de processamento de alta velocidade de 1,6 milhão de palavras/segundo (3000KB/S).
A versão 2012 do modo de segmentação inteligente de palavras suporta processamento simples de desambiguação de segmentação de palavras e saída de mesclagem de quantificadores.
Ele adota um modo de análise multi-subprocessador, suporta: processamento de segmentação de palavras de letras inglesas, números, vocabulário chinês, etc., é compatível com armazenamento de dicionário otimizado para caracteres coreanos e japoneses e tem um consumo de memória menor. Suporta definições estendidas do dicionário do usuário. Em particular, na versão 2012, o dicionário oferece suporte a palavras mistas em chinês, inglês e digitais.