Pode realizar segmentação de palavras em frases em chinês e inglês com pontuação mista de largura total e meia largura. Você pode escolher o comprimento máximo da palavra de uma frase, o comprimento mínimo da palavra de uma sentença de pontuação, se deseja reter uma única palavra no resultado da segmentação de palavras, se deve reter sinais de pontuação e outras funções. Para obter instruções mais detalhadas, consulte o Readme.txt no pacote de download.
Um arquivo de dicionário sqlite é fornecido por padrão. Se o seu host virtual não suportar sqlite, você poderá importá-lo para o mysql ou criar outros dicionários você mesmo.
Devido às minhas capacidades limitadas, talvez não consiga satisfazer a todos em termos de eficiência, por isso inclua mais informações.
A montagem, descarregamento e consulta do dicionário possuem funções separadas, por isso deve ser fácil de modificar. O algoritmo principal de segmentação de palavras só precisa de findinDict para retornar verdadeiro ou falso para me dizer se a palavra está no dicionário.
Outra coisa a observar é que a extensão mbstring é necessária. Não há como misturar chinês, inglês, largura total e meia largura para segmentar palavras. É muito difícil calcular o comprimento da frase sem usar mbstring.
O programa é fornecido como uma extensão do ThinkPHP por padrão, mas você pode remover a base estendida e usar a segmentação de palavras diretamente. Contrato de código aberto Apache2, portanto, não importa se é usado para código comercial fechado, contanto que você não goste do meu programa
Expandir