Der PHP-Code für die chinesische Wortsegmentierung verwendet ein auf Unicode basierendes Lexikon und die Wortsegmentierung im Reverse-Matching-Modus. Er ist theoretisch mit einer breiteren Palette von Kodierungen kompatibel und eignet sich besonders für die UTF-8-Kodierung. Da PhpanAlysis ein komponentenloses System ist, ist die Geschwindigkeit etwas langsamer als bei der Verwendung von Komponenten. Da jedoch bei einer großen Anzahl von Wortsegmentierungen das Laden der Wortdatenbank während der Wortsegmentierung abgeschlossen wird, ist die Geschwindigkeit umso höher, je mehr Inhalt vorhanden ist . Dies ist ein normales Phänomen. Bei Servern, die PHP-APC unterstützen, ist die theoretische Geschwindigkeit nicht geringer als bei diesen Wortsegmentierungsprogrammen.
Das Wortsegmentierungssystem ist eine Wortsegmentierungsmethode, die auf dem String-Matching basiert . Diese Methode wird auch als mechanische Wortsegmentierungsmethode bezeichnet. Sie gleicht die zu analysierende chinesische Zeichenfolge mit Einträgen in einem „ausreichend großen“ Maschinenwörterbuch ab. Wenn im Wörterbuch eine Zeichenfolge gefunden wird, ist die Übereinstimmung erfolgreich (ein Wort wird erkannt). Je nach Scanrichtung kann die String-Matching-Wortsegmentierungsmethode in Vorwärts-Matching und Reverse-Matching unterschiedlicher Länge unterteilt werden, sie kann entsprechend in maximale (längste) Übereinstimmung und minimale (kürzeste) Übereinstimmung unterteilt werden Ob es mit dem Teil-der-Sprache-Tagging-Prozess zusammenhängt, kann in eine einfache Wortsegmentierungsmethode und eine integrierte Methode, die Wortsegmentierung und Annotation kombiniert, unterteilt werden. Einige häufig verwendete Methoden zur mechanischen Wortsegmentierung sind wie folgt:
1) Vorwärts-Maximum-Matching-Methode (Richtung von links nach rechts);
2) Inverse Maximum-Matching-Methode (Richtung von rechts nach links);
3) Minimale Segmentierung (minimieren Sie die Anzahl der Wörter in jedem Satz).
Die verschiedenen oben genannten Methoden können auch miteinander kombiniert werden. Beispielsweise können die Vorwärts-Maximum-Matching-Methode und die Reverse-Maximum-Matching-Methode zu einer Zwei-Wege-Matching-Methode kombiniert werden. Aufgrund der Merkmale der chinesischen Einzelzeichen-Wortbildung werden Vorwärts-Minimum-Matching und Reverse-Minimum-Matching im Allgemeinen selten verwendet. Im Allgemeinen ist die Segmentierungsgenauigkeit des Reverse-Matchings etwas höher als die des Forward-Matchings und es treten weniger Mehrdeutigkeiten auf. Statistische Ergebnisse zeigen, dass die Fehlerrate bei der einfachen Verwendung des Vorwärts-Maximum-Matchings 1/169 beträgt und die Fehlerrate bei der einfachen Verwendung des Rückwärts-Maximum-Matchings 1/245 beträgt. Diese Genauigkeit entspricht jedoch bei weitem nicht den tatsächlichen Anforderungen. Die tatsächlich verwendeten Wortsegmentierungssysteme verwenden alle die mechanische Wortsegmentierung als vorläufige Segmentierungsmethode, und es ist notwendig, die Genauigkeit der Segmentierung durch die Verwendung verschiedener anderer linguistischer Informationen weiter zu verbessern.
Eine Methode besteht darin, die Scanmethode zu verbessern, die als Merkmalsscan oder Markierungssegmentierung bezeichnet wird. Dabei wird die Identifizierung und Segmentierung einiger Wörter mit offensichtlichen Merkmalen in der zu analysierenden Zeichenfolge priorisiert. Mithilfe dieser Wörter kann die ursprüngliche Zeichenfolge in mechanische Wörter unterteilt werden Für kleinere Zeichenfolgen wird eine Segmentierung durchgeführt, um die Übereinstimmungsfehlerrate zu verringern. Eine andere Methode besteht darin, Wortsegmentierung und Teil-of-Speech-Tagging zu kombinieren, umfangreiche Teil-of-Speech-Informationen zu verwenden, um Wortsegmentierungsentscheidungen zu unterstützen, und wiederum die Wortsegmentierungsergebnisse während des Tagging-Prozesses zu überprüfen und anzupassen, wodurch die Genauigkeit erheblich verbessert wird Segmentierung.
Expandieren