IK Analyzer 開源中文分詞2012 u6
v0
IKAnalyzer是一個開源的,基於java語言開發的輕量級的中文分詞工具包。從2006年12月推出1.0版開始,IKAnalyzer已經推出了4個大版本。最初,它是以開源專案Luence為應用主體的,結合字典分詞和文法分析演算法的中文分詞組件。從3.0版本開始,IK發展為面向Java的公用分詞組件,獨立於Lucene項目,同時提供了對Lucene的預設最佳化實作。在2012版本中,IK實作了簡單的分詞歧義排除演算法,標誌著IK分詞器從單純的字典分詞向模擬語意分詞衍化。
IKAnalyzer2012特性:
採用了特有的“正向迭代最細粒度切分算法“,支援細粒度和智能分詞兩種切分模式;
在系統環境:Core2i73.4G雙核,4G內存,window764位,SunJDK1.6_2964位普通pc環境測試,IK2012具有160萬字/秒(3000KB/S)的高速處理能力。
2012版本的智慧分詞模式支援簡單的分詞排歧義處理和數量詞合併輸出。
採用了多子處理器分析模式,支援:英文字母、數字、中文詞彙等分詞處理,相容於韓文、日文字元優化的字典存儲,更小的記憶體佔用。支援使用者詞典擴展定義。特別的,在2012版本,字典支援中文,英文,數字混合詞語。