全角と半角の句読点が混在する中国語や英語の文章でも単語分割が可能です。文節の最大語長、句読点文の最小語長、単語分割結果に単語を1つ残すかどうか、句読点を残すかどうかなどの機能を選択できます。詳しい手順については、ダウンロード パッケージ内の Readme.txt をご覧ください。
sqlite 辞書ファイルがデフォルトで提供されます。仮想ホストが sqlite をサポートしていない場合は、mysql にインポートするか、他の辞書を自分で作成できます。
私の能力が限られているため、効率の面ですべての人を満足させることができない可能性がありますので、より多くの情報を含めてください。
ディクショナリのマウント、アンロード、クエリは機能が分離されているため、変更は簡単です。コアの単語分割アルゴリズムでは、findinDict が true または false を返すだけで、その単語が辞書にあるかどうかがわかります。
もう 1 つ注意すべき点は、mbstring の拡張子が必要であることです。中国語、英語、全角、半角が混在しているため、mbstringを使わずに文の長さを計算することは非常に困難です。
このプログラムはデフォルトで ThinkPHP の拡張機能として提供されますが、拡張 Base を削除して単語セグメンテーションを直接使用することもできます。 Apache2 オープンソース契約、つまり、私のプログラムが嫌いでない限り、商用のクローズドソースに使用されるかどうかは問題ではありません。
拡大する