IKAnalyzer ist ein Open-Source-Toolkit zur Segmentierung chinesischer Wörter, das auf der Grundlage der Java-Sprache entwickelt wurde. Seit der Einführung der Version 1.0 im Dezember 2006 hat IKAnalyzer vier Hauptversionen herausgebracht. Ursprünglich handelte es sich um eine chinesische Wortsegmentierungskomponente, die auf dem Open-Source-Projekt Luence basierte und Wörterbuchwortsegmentierung mit grammatischen Analysealgorithmen kombinierte. Ab Version 3.0 hat sich IK unabhängig vom Lucene-Projekt zu einer öffentlichen Wortsegmentierungskomponente für Java entwickelt und bietet eine standardmäßig optimierte Implementierung von Lucene. In der Version 2012 implementierte IK einen einfachen Algorithmus zur Eliminierung von Mehrdeutigkeiten bei der Wortsegmentierung und markierte damit die Entwicklung des IK-Wortsegmentierers von der einfachen Wörterbuchsegmentierung zur simulierten semantischen Wortsegmentierung.
IKAnalyzer2012-Funktionen:
Es verwendet eine einzigartige „Vorwärtsiteration des feinkörnigen Segmentierungsalgorithmus“ und unterstützt zwei Segmentierungsmodi: feinkörnige und intelligente Wortsegmentierung;
In der Systemumgebung: Core2i73.4G Dual-Core, 4G-Speicher, Fenster 764-Bit, SunJDK1.6_2964-Bit, normaler PC-Umgebungstest, IK2012 verfügt über eine Hochgeschwindigkeitsverarbeitungsfähigkeit von 1,6 Millionen Wörtern/Sekunde (3000 KB/s).
Die Version 2012 des intelligenten Wortsegmentierungsmodus unterstützt die einfache Verarbeitung der Begriffsklärung durch Wortsegmentierung und die Ausgabe von Quantifiziererzusammenführungen.
Es verwendet einen Multi-Subprozessor-Analysemodus, unterstützt die Wortsegmentierungsverarbeitung von englischen Buchstaben, Zahlen, chinesischem Vokabular usw., ist mit der für koreanische und japanische Zeichen optimierten Wörterbuchspeicherung kompatibel und hat einen geringeren Speicherbedarf. Unterstützt erweiterte Benutzerwörterbuchdefinitionen. Insbesondere unterstützt das Wörterbuch in der Version 2012 Chinesisch, Englisch und digitale Mischwörter.