IKAnalyzer は、Java 言語に基づいて開発されたオープンソースの軽量の中国語単語分割ツールキットです。 2006 年 12 月にバージョン 1.0 がリリースされて以来、IKAnalyzer は 4 つのメジャー バージョンをリリースしました。当初、これはオープンソース プロジェクト Luence に基づく中国語単語分割コンポーネントであり、辞書の単語分割と文法分析アルゴリズムを組み合わせたものでした。バージョン 3.0 以降、IK は Lucene プロジェクトから独立した Java 用のパブリック ワード セグメンテーション コンポーネントとして開発され、Lucene のデフォルトの最適化された実装を提供します。 2012 年バージョンでは、IK は単純な単語セグメンテーションの曖昧性除去アルゴリズムを実装し、単純な辞書セグメンテーションからシミュレートされた意味論的な単語セグメンテーションへの IK 単語セグメンテーションの進化を示しました。
IKAnalyzer2012 の機能:
独自の「最細粒セグメンテーション アルゴリズムの前方反復」を採用し、2 つのセグメンテーション モードをサポートします。
システム環境:Core2i73.4Gデュアルコア、4Gメモリ、window764bit、SunJDK1.6_2964bitの一般的なPC環境でのテストにおいて、IK2012は160万ワード/秒(3000KB/S)の高速処理能力を持っています。
2012 バージョンのインテリジェント単語セグメンテーション モードは、単純な単語セグメンテーションの曖昧さ回避処理と量指定子のマージ出力をサポートしています。
マルチサブプロセッサ分析モードを採用し、英字、数字、中国語語彙などの単語分割処理をサポートし、韓国語と日本語の文字最適化辞書ストレージと互換性があり、メモリ使用量が小さくなります。ユーザー辞書の拡張定義をサポートします。特に2012年版では中国語、英語、デジタル混合語にも対応しました。