IKAnalyzer est une boîte à outils open source légère de segmentation de mots chinois développée sur la base du langage Java. Depuis le lancement de la version 1.0 en décembre 2006, IKAnalyzer a lancé 4 versions majeures. Initialement, il s'agissait d'un composant de segmentation de mots chinois basé sur le projet open source Luence, qui combinait des algorithmes de segmentation de mots de dictionnaire et d'analyse grammaticale. À partir de la version 3.0, IK est devenu un composant public de segmentation de mots pour Java, indépendant du projet Lucene, et fournit une implémentation optimisée par défaut de Lucene. Dans la version 2012, IK a implémenté un algorithme d'élimination d'ambiguïté de segmentation de mots simple, marquant l'évolution du segmenteur de mots IK de la segmentation simple du dictionnaire à la segmentation sémantique simulée des mots.
Caractéristiques d'IKAnalyzer2012 :
Il adopte une « itération avant de l'algorithme de segmentation le plus fin » unique et prend en charge deux modes de segmentation : la segmentation de mots fine et intelligente ;
Dans l'environnement système : Core2i73.4G dual-core, mémoire 4G, window764-bit, test d'environnement PC ordinaire SunJDK1.6_2964-bit, IK2012 a une capacité de traitement à grande vitesse de 1,6 million de mots/seconde (3000 Ko/S).
La version 2012 du mode de segmentation intelligente des mots prend en charge le traitement simple de désambiguïsation de la segmentation des mots et la sortie de fusion des quantificateurs.
Il adopte un mode d'analyse multi-sous-processeur, prend en charge : le traitement de segmentation de mots des lettres anglaises, des chiffres, du vocabulaire chinois, etc., est compatible avec le stockage de dictionnaire optimisé pour les caractères coréens et japonais et a une empreinte mémoire plus petite. Prend en charge les définitions étendues du dictionnaire utilisateur. En particulier, dans la version 2012, le dictionnaire prend en charge les mots mixtes chinois, anglais et numériques.