IKAnalyzer — это легкий набор инструментов для сегментации китайских слов с открытым исходным кодом, разработанный на основе языка Java. С момента запуска версии 1.0 в декабре 2006 года IKAnalyzer выпустил 4 основные версии. Первоначально это был компонент сегментации китайских слов, основанный на проекте с открытым исходным кодом Luence, который сочетал в себе словарную сегментацию слов и алгоритмы грамматического анализа. Начиная с версии 3.0, IK превратился в общедоступный компонент сегментации слов для Java, независимый от проекта Lucene, и предоставляет оптимизированную по умолчанию реализацию Lucene. В версии 2012 года IK реализовал простой алгоритм устранения неоднозначности сегментации слов, отмечая эволюцию сегментатора слов IK от простой словарной сегментации к моделируемой семантической сегментации слов.
Возможности IKAnalyzer2012:
Он использует уникальную «прямую итерацию алгоритма детальной сегментации» и поддерживает два режима сегментации: детальную и интеллектуальную сегментацию слов;
В системной среде: двухъядерный процессор Core2i73.4G, память 4G, 764-битное окно, SunJDK1.6_2964-битный обычный тест среды ПК, IK2012 имеет возможность высокоскоростной обработки 1,6 миллиона слов в секунду (3000 КБ/с).
Версия 2012 года режима интеллектуальной сегментации слов поддерживает простую обработку устранения неоднозначности сегментации слов и вывод слияния кванторов.
Он использует режим мульти-подпроцессорного анализа, поддерживает: обработку сегментации слов английских букв, цифр, китайского словаря и т. д., совместим с хранилищем словарей, оптимизированным для корейских и японских символов, и имеет меньший объем памяти. Поддерживает расширенные определения пользовательского словаря. В частности, в версии 2012 года словарь поддерживает китайские, английские и цифровые смешанные слова.