IKAnalyzer adalah perangkat segmentasi kata Mandarin ringan dan open source yang dikembangkan berdasarkan bahasa Java. Sejak peluncuran versi 1.0 pada bulan Desember 2006, IKAnalyzer telah meluncurkan 4 versi utama. Awalnya, ini adalah komponen segmentasi kata berbahasa Mandarin berdasarkan proyek sumber terbuka Luence, yang menggabungkan segmentasi kata kamus dan algoritma analisis tata bahasa. Mulai dari versi 3.0, IK telah berkembang menjadi komponen segmentasi kata publik untuk Java, independen dari proyek Lucene, dan menyediakan implementasi Lucene yang dioptimalkan secara default. Pada versi 2012, IK menerapkan algoritma penghapusan ambiguitas segmentasi kata sederhana, menandai evolusi segmenter kata IK dari segmentasi kamus sederhana menjadi simulasi segmentasi kata semantik.
Fitur IKAnalyzer2012:
Ini mengadopsi "iterasi maju dari algoritma segmentasi berbutir terbaik" yang unik dan mendukung dua mode segmentasi: segmentasi kata yang berbutir halus dan cerdas;
Dalam lingkungan sistem: Core2i73.4G dual-core, memori 4G, window764-bit, SunJDK1.6_2964-bit uji lingkungan PC biasa, IK2012 memiliki kemampuan pemrosesan berkecepatan tinggi 1,6 juta kata/detik (3000KB/S).
Mode segmentasi kata cerdas versi 2012 mendukung pemrosesan disambiguasi segmentasi kata sederhana dan keluaran penggabungan pembilang.
Ini mengadopsi mode analisis multi-subprosesor, mendukung: pemrosesan segmentasi kata dari huruf bahasa Inggris, angka, kosakata bahasa Mandarin, dll., kompatibel dengan penyimpanan kamus yang dioptimalkan karakter Korea dan Jepang, dan memiliki jejak memori yang lebih kecil. Mendukung definisi perluasan kamus pengguna. Khususnya, pada versi 2012, kamus mendukung kata-kata campuran berbahasa Mandarin, Inggris, dan digital.