O código de segmentação de palavras chinesas do PHP usa um léxico baseado em Unicode e usa segmentação de palavras no modo de correspondência reversa. É teoricamente compatível com uma gama mais ampla de codificações e é particularmente conveniente para codificação UTF-8. Como o PhpanAlysis é um sistema sem componentes, a velocidade será um pouco mais lenta do que com componentes. No entanto, em um grande número de segmentações de palavras, como o carregamento do banco de dados de palavras é concluído durante a segmentação de palavras, quanto mais conteúdo, mais rápida será a velocidade. .Este é um fenômeno normal. Para servidores que suportam PHP-APC, este programa suporta cache de dicionários. Depois disso, a velocidade teórica não será mais lenta do que aqueles programas de segmentação de palavras com componentes.
O sistema de segmentação de palavras é um método de segmentação de palavras baseado na correspondência de strings . Este método também é chamado de método mecânico de segmentação de palavras. Ele combina a sequência de caracteres chineses a ser analisada com entradas em um dicionário de máquina "suficientemente grande". If Se uma string for encontrada no dicionário, a correspondência foi bem-sucedida (uma palavra é reconhecida). De acordo com diferentes direções de varredura, o método de segmentação de palavras de correspondência de string pode ser dividido em correspondência direta e correspondência reversa de acordo com a correspondência de prioridade de diferentes comprimentos, pode ser dividido em correspondência máxima (mais longa) e correspondência mínima (mais curta); seja relacionado ao processo de marcação de classes gramaticais. Combinado, pode ser dividido em método simples de segmentação de palavras e método integrado que combina segmentação e anotação de palavras. Vários métodos mecânicos de segmentação de palavras comumente usados são os seguintes:
1) Método de correspondência máxima direta (direção da esquerda para a direita);
2) Método de correspondência máxima inversa (direção da direita para a esquerda);
3) Segmentação mínima (minimizar o número de palavras em cada frase).
Os vários métodos mencionados acima também podem ser combinados entre si. Por exemplo, o método de correspondência máxima direta e o método de correspondência máxima reversa podem ser combinados para formar um método de correspondência bidirecional. Devido às características da formação de palavras de um único caractere chinês, a correspondência mínima direta e a correspondência mínima reversa geralmente raramente são usadas. De modo geral, a precisão da segmentação da correspondência reversa é ligeiramente maior do que a da correspondência direta e menos ambiguidades são encontradas. Os resultados estatísticos mostram que a taxa de erro de simplesmente usar a correspondência máxima direta é de 1/169, e a taxa de erro de simplesmente usar a correspondência máxima reversa é de 1/245. No entanto, esta precisão está longe de satisfazer as necessidades reais. Todos os sistemas de segmentação de palavras realmente usados usam segmentação mecânica de palavras como método de segmentação preliminar, e é necessário melhorar ainda mais a precisão da segmentação usando várias outras informações linguísticas.
Um método é melhorar o método de digitalização, que é chamado de digitalização de recursos ou segmentação de marcas. Ele prioriza a identificação e segmentação de algumas palavras com características óbvias na string a ser analisada. Usando essas palavras como pontos de interrupção, a string original pode ser dividida em palavra mecânica. a segmentação é realizada para strings menores para reduzir a taxa de erro de correspondência. Outro método é combinar segmentação de palavras e marcação de classes gramaticais, usar informações ricas de classes gramaticais para ajudar nas decisões de segmentação de palavras e, por sua vez, verificar e ajustar os resultados da segmentação de palavras durante o processo de marcação, melhorando muito a precisão de segmentação.
Expandir