全半角可以混合了標點的中英文句子進行分詞。可以自行選擇最大詞組字長、標點斷句最小詞組字長、是否保留分詞結果中的單字、是否保留標點符號等功能。更詳細的說明請查看下載包裡面的Readme.txt
預設提供一個sqlite的字典檔。如果你的虛擬主機不支援sqlite,你可以將其導入mysql或自己造其他的字典。
由於本人能力有限,可能效率上不能令大家滿意,請多內含。
字典的掛載、卸載和查詢都將函數分開了,修改起來應該很容易。核心分詞演算法只需要findinDict回傳一個true或false告訴我字典中是否有這個字就行了。
還有一個要注意的就是mbstring的擴充是必須的。沒辦法啊,中英文、全半角混合在一起分詞,不用mbstring在計算句子長度等方面都很困難。
程式預設是作為ThinkPHP的擴充功能提供的,但是你可以去掉extends Base,直接使用分詞類別。 Apache2開源協議,SO,用於商業閉源也無所謂啦,如果你不嫌棄我的程序
展開