Kann eine Wortsegmentierung für chinesische und englische Sätze mit gemischter Interpunktion voller und halber Breite durchführen. Sie können die maximale Wortlänge einer Phrase, die minimale Wortlänge eines Interpunktionssatzes, die Beibehaltung eines einzelnen Wortes im Ergebnis der Wortsegmentierung, die Beibehaltung von Satzzeichen und andere Funktionen auswählen. Ausführlichere Anweisungen finden Sie in der Datei Readme.txt im Download-Paket.
Standardmäßig wird eine SQLite-Wörterbuchdatei bereitgestellt. Wenn Ihr virtueller Host SQLite nicht unterstützt, können Sie es in MySQL importieren oder selbst andere Wörterbücher erstellen.
Aufgrund meiner begrenzten Fähigkeiten kann es sein, dass ich hinsichtlich der Effizienz möglicherweise nicht alle zufriedenstellen kann. Bitte geben Sie daher weitere Informationen an.
Das Einhängen, Entladen und Abfragen des Wörterbuchs erfolgt über getrennte Funktionen und sollte daher leicht zu ändern sein. Der Kernalgorithmus zur Wortsegmentierung benötigt nur findinDict, um „true“ oder „false“ zurückzugeben, um mir mitzuteilen, ob das Wort im Wörterbuch enthalten ist.
Beachten Sie außerdem, dass die Erweiterung mbstring erforderlich ist. Es gibt keine Möglichkeit, Wörter in voller Breite und halber Breite zu segmentieren. Es ist sehr schwierig, die Satzlänge ohne Verwendung von mbstring zu berechnen.
Das Programm wird standardmäßig als Erweiterung von ThinkPHP bereitgestellt, Sie können jedoch die Erweiterungsbasis entfernen und die Wortsegmentierung direkt verwenden. Apache2-Open-Source-Vereinbarung, also spielt es keine Rolle, ob es für kommerzielle Closed-Source-Anwendungen verwendet wird, solange Ihnen mein Programm nicht missfällt
Expandieren