Código de segmentação de palavras chinesas em PHP

Código de segmentação de palavras chinesas em PHP

link de pesquisa

v1.0 UTF-8

Recursos Indisponíveis

O código de segmentação de palavras chinesas do PHP usa um léxico baseado em Unicode e usa segmentação de palavras no modo de correspondência reversa. É teoricamente compatível com uma gama mais ampla de codificações e é particularmente conveniente para codificação UTF-8. Como o PhpanAlysis é um sistema sem componentes, a velocidade será um pouco mais lenta do que com componentes. No entanto, em um grande número de segmentações de palavras, como o carregamento do banco de dados de palavras é concluído durante a segmentação de palavras, quanto mais conteúdo, mais rápida será a velocidade. .Este é um fenômeno normal. Para servidores que suportam PHP-APC, este programa suporta cache de dicionários. Depois disso, a velocidade teórica não será mais lenta do que aqueles programas de segmentação de palavras com componentes.

O sistema de segmentação de palavras é um método de segmentação de palavras baseado na correspondência de strings . Este método também é chamado de método mecânico de segmentação de palavras. Ele combina a sequência de caracteres chineses a ser analisada com entradas em um dicionário de máquina "suficientemente grande". If Se uma string for encontrada no dicionário, a correspondência foi bem-sucedida (uma palavra é reconhecida). De acordo com diferentes direções de varredura, o método de segmentação de palavras de correspondência de string pode ser dividido em correspondência direta e correspondência reversa de acordo com a correspondência de prioridade de diferentes comprimentos, pode ser dividido em correspondência máxima (mais longa) e correspondência mínima (mais curta); seja relacionado ao processo de marcação de classes gramaticais. Combinado, pode ser dividido em método simples de segmentação de palavras e método integrado que combina segmentação e anotação de palavras. Vários métodos mecânicos de segmentação de palavras comumente usados são os seguintes:

1) Método de correspondência máxima direta (direção da esquerda para a direita);
2) Método de correspondência máxima inversa (direção da direita para a esquerda);
3) Segmentação mínima (minimizar o número de palavras em cada frase).

Os vários métodos mencionados acima também podem ser combinados entre si. Por exemplo, o método de correspondência máxima direta e o método de correspondência máxima reversa podem ser combinados para formar um método de correspondência bidirecional. Devido às características da formação de palavras de um único caractere chinês, a correspondência mínima direta e a correspondência mínima reversa geralmente raramente são usadas. De modo geral, a precisão da segmentação da correspondência reversa é ligeiramente maior do que a da correspondência direta e menos ambiguidades são encontradas. Os resultados estatísticos mostram que a taxa de erro de simplesmente usar a correspondência máxima direta é de 1/169, e a taxa de erro de simplesmente usar a correspondência máxima reversa é de 1/245. No entanto, esta precisão está longe de satisfazer as necessidades reais. Todos os sistemas de segmentação de palavras realmente usados usam segmentação mecânica de palavras como método de segmentação preliminar, e é necessário melhorar ainda mais a precisão da segmentação usando várias outras informações linguísticas.

Um método é melhorar o método de digitalização, que é chamado de digitalização de recursos ou segmentação de marcas. Ele prioriza a identificação e segmentação de algumas palavras com características óbvias na string a ser analisada. Usando essas palavras como pontos de interrupção, a string original pode ser dividida em palavra mecânica. a segmentação é realizada para strings menores para reduzir a taxa de erro de correspondência. Outro método é combinar segmentação de palavras e marcação de classes gramaticais, usar informações ricas de classes gramaticais para ajudar nas decisões de segmentação de palavras e, por sua vez, verificar e ajustar os resultados da segmentação de palavras durante o processo de marcação, melhorando muito a precisão de segmentação.

Expandir

Informações adicionais

Versão v1.0 UTF-8
Tipo link de pesquisa
Data da Última Atualização 2011-11-22
tamanho 2.26MB

Aplicativos Relacionados

PHP

2009-06-26
PHP

2009-06-26
PHP

2009-06-24
PHP

2009-06-24
PHP

2009-06-23
PHP

2009-06-23

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
A nova versão imita a versão comercial 114la com uma máquina de registro e código-fonte de gerenciamento de plano de fundo perfeito

link de pesquisa
Link externo do buraco da árvore v2.4.7

link de pesquisa

v0
Soupan.com (mecanismo de pesquisa de disco de rede)

link de pesquisa

v1.0 免费版
waymo open dataset

Outro código-fonte

December 2023 Update
wp functions

Outras categorias

1.0.0
termwind

Outras categorias

v2.3.0

Informações Relacionadas Todos