O que é segmentação de palavras chinesas
O que é segmentação de palavras? Qual é a diferença entre a segmentação de palavras chinesas e outras segmentações de palavras? A segmentação de palavras é o processo de recombinação de sequências contínuas de palavras em sequências de palavras de acordo com certas especificações. A partir do exemplo acima, podemos ver que na escrita em inglês os espaços são usados como delimitadores naturais entre palavras, enquanto em chinês apenas palavras, frases e parágrafos podem ser simplesmente delimitados por delimitadores óbvios. O inglês também tem o problema de dividir frases, no nível das palavras, como podemos ver no exemplo acima, o chinês é muito mais complicado e difícil do que o inglês.
Existem atualmente três algoritmos convencionais de segmentação de palavras chinesas:
1. Método de segmentação de palavras baseado na correspondência de strings
Este método também é chamado de método mecânico de segmentação de palavras. Ele combina a sequência de caracteres chineses a ser analisada com as entradas em um dicionário de máquina "suficientemente grande" de acordo com uma determinada estratégia. bem sucedido. (Reconhecer uma palavra). De acordo com diferentes direções de varredura, o método de segmentação de palavras de correspondência de string pode ser dividido em correspondência direta e correspondência reversa de acordo com a correspondência de prioridade de diferentes comprimentos, pode ser dividido em correspondência máxima (mais longa) e correspondência mínima (mais curta); seja relacionado ao processo de marcação de classes gramaticais. Combinado, pode ser dividido em método simples de segmentação de palavras e método integrado que combina segmentação e anotação de palavras. Vários métodos mecânicos de segmentação de palavras comumente usados são os seguintes:
1) Método de correspondência máxima direta (direção da esquerda para a direita);
2) Método de correspondência máxima inversa (direção da direita para a esquerda);
3) Segmentação mínima (minimizar o número de palavras em cada frase).
Os vários métodos mencionados acima também podem ser combinados entre si. Por exemplo, o método de correspondência máxima direta e o método de correspondência máxima reversa podem ser combinados para formar um método de correspondência bidirecional. Devido às características da formação de palavras de um único caractere chinês, a correspondência mínima direta e a correspondência mínima reversa geralmente raramente são usadas. De modo geral, a precisão da segmentação da correspondência reversa é ligeiramente maior do que a da correspondência direta e menos ambiguidades são encontradas. Os resultados estatísticos mostram que a taxa de erro de simplesmente usar a correspondência máxima direta é de 1/169, e a taxa de erro de simplesmente usar a correspondência máxima reversa é de 1/245. No entanto, esta precisão está longe de satisfazer as necessidades reais. Todos os sistemas de segmentação de palavras realmente usados usam segmentação mecânica de palavras como método de segmentação preliminar, e é necessário melhorar ainda mais a precisão da segmentação usando várias outras informações linguísticas.
Um método é melhorar o método de digitalização, que é chamado de digitalização de recursos ou segmentação de marcas. Ele prioriza a identificação e segmentação de algumas palavras com características óbvias na string a ser analisada. Usando essas palavras como pontos de interrupção, a string original pode ser dividida em palavra mecânica. a segmentação é realizada para strings menores para reduzir a taxa de erro de correspondência. Outro método é combinar segmentação de palavras e marcação de classes gramaticais, usar informações ricas de classes gramaticais para ajudar nas decisões de segmentação de palavras e, por sua vez, verificar e ajustar os resultados da segmentação de palavras durante o processo de marcação, melhorando muito a precisão de segmentação.
2. Método de segmentação de palavras baseado na compreensão
Este método de segmentação de palavras atinge o efeito de reconhecimento de palavras, permitindo que o computador simule a compreensão humana das frases. A ideia básica é realizar análises sintáticas e semânticas ao segmentar palavras e usar informações sintáticas e semânticas para lidar com a ambigüidade. Geralmente consiste em três partes: subsistema de segmentação de palavras, subsistema de sintaxe e semântica e parte de controle geral. Sob a coordenação da parte de controle geral, o subsistema de segmentação de palavras pode obter informações sintáticas e semânticas sobre palavras, sentenças, etc. para julgar a ambiguidade da segmentação de palavras, ou seja, simula o processo de compreensão humana das sentenças. Este método de segmentação de palavras requer o uso de uma grande quantidade de conhecimento e informações linguísticas. Devido à generalidade e complexidade do conhecimento da língua chinesa, é difícil organizar diversas informações linguísticas de uma forma que possa ser lida diretamente por máquinas. Portanto, o sistema de segmentação de palavras baseado na compreensão ainda está em fase experimental.
3. Método de segmentação de palavras baseado em estatísticas
Do ponto de vista formal, as palavras são combinações estáveis de palavras; portanto, no contexto, quanto mais vezes palavras adjacentes aparecem ao mesmo tempo, maior é a probabilidade de elas formarem uma palavra. Portanto, a frequência ou probabilidade de palavras adjacentes ocorrerem simultaneamente entre palavras pode refletir melhor a credibilidade da palavra. A frequência de combinações de palavras adjacentes que co-ocorrem no corpus pode ser contada e suas informações de ocorrência mútua podem ser calculadas. Defina as informações de ocorrência mútua de dois caracteres e calcule a probabilidade de coocorrência adjacente de dois caracteres chineses X e Y. As informações de ocorrência mútua refletem a proximidade da relação de combinação entre os caracteres chineses. Quando a proximidade é superior a um determinado limite, pode-se considerar que este grupo de palavras pode formar uma palavra. Este método só precisa contar a frequência dos grupos de palavras no corpus e não precisa segmentar o dicionário, por isso também é chamado de método de segmentação de palavras sem dicionário ou método estatístico de extração de palavras. No entanto, este método também tem certas limitações. Freqüentemente, ele extrai alguns grupos de palavras comumente usados que co-ocorrem com frequência, mas não são palavras, como "este", "um", "alguns", "meu", "muitos", etc., e a precisão do reconhecimento de palavras comuns é baixa e a sobrecarga de tempo e espaço é grande. Os sistemas práticos de segmentação estatística de palavras devem usar um dicionário básico de segmentação de palavras (dicionário de palavras comuns) para correspondência de strings e segmentação de palavras e, ao mesmo tempo, usar métodos estatísticos para identificar algumas palavras novas, ou seja, combinar estatísticas de frequência de strings com correspondência de strings, que não apenas desempenha o papel de segmentação de palavras correspondentes, mas também usa métodos estatísticos para identificar algumas palavras novas. Possui as características de segmentação rápida e alta eficiência. Também aproveita a segmentação de palavras sem dicionário e o reconhecimento de contexto para identificar novas palavras e. eliminar automaticamente ambiguidades.
Alguns pontos a serem observados sobre particípios:
1. O desempenho temporal do algoritmo de segmentação de palavras é relativamente alto. Especialmente a pesquisa na web de hoje tem altos requisitos em tempo real. Portanto, a segmentação de palavras, que é a base do processamento da informação chinesa, deve primeiro levar o mínimo de tempo possível.
2. A melhoria da precisão da segmentação de palavras não leva necessariamente à melhoria do desempenho de recuperação. Depois que a segmentação de palavras atingir uma certa precisão, o impacto na recuperação de informações chinesas não será mais óbvio. Embora ainda haja algum impacto, esse não é mais o gargalo de desempenho do CIR. Portanto, o algoritmo de segmentação de palavras unilateral que busca cegamente alta precisão não é muito adequado para recuperação de informações chinesas em larga escala. Quando há um conflito entre tempo e precisão, precisamos encontrar um equilíbrio adequado entre os dois.
3. A granularidade da segmentação ainda pode seguir o princípio de prioridade de palavras longas, mas o processamento subsequente relevante precisa ser realizado no nível de expansão da consulta. Na recuperação de informação, os algoritmos de segmentação de palavras só precisam se concentrar em como eliminar ambiguidades cruzadas. Para ambiguidade de cobertura, podemos usar a indexação secundária do dicionário e a expansão da consulta para resolvê-la.
4. A precisão do reconhecimento de palavras não registradas é mais importante do que a taxa de recuperação. É necessário tentar garantir que não sejam realizadas combinações erradas na identificação de palavras não registradas, para evitar a segmentação de palavras não registradas erradas. Se palavras isoladas forem combinadas incorretamente em palavras não registradas, o documento correspondente poderá não ser recuperado corretamente.
Particípio Baidu
Primeiro separe a consulta com base no delimitador. "Ferramentas teóricas de recuperação de informação" após particípio <recuperação de informação, teoria, ferramentas>.
Em seguida, veja se há strings duplicadas. Em caso afirmativo, descarte as extras e mantenha apenas uma. Depois que a palavra "teoria da ferramenta teórica" é dividida em <teoria da ferramenta>, o GOOGLE não considera esse cálculo de fusão.
Em seguida, determine se existem palavras ou números em inglês. Em caso afirmativo, mantenha as palavras ou números em inglês como um todo e corte os caracteres chineses antes e depois. Consulte "movie BT download" após a palavra segmentação <movie, BT, download>.
Se a string contiver apenas menos ou igual a 3 caracteres chineses, mantenha-a inalterada. Quando o comprimento da string for maior que 4 caracteres chineses, o programa de segmentação de palavras do Baidu funcionará e quebrará a string.
Tipos de algoritmo de segmentação de palavras: correspondência máxima direta, correspondência máxima reversa, correspondência máxima bidirecional, método de modelo de linguagem, algoritmo de caminho mais curto Para julgar se um sistema de segmentação de palavras é bom ou não, há dois pontos-chave. eliminar a ambiguidade; a outra é a identificação de palavras que não estão registradas no dicionário. Por exemplo, nomes de pessoas, lugares, organizações, etc.
A segmentação de palavras do Baidu usa pelo menos dois dicionários, um é um dicionário geral e o outro é um dicionário especial (nomes de pessoas, nomes de lugares, palavras novas, etc.). Além disso, um dicionário especial o corta primeiro e depois os fragmentos restantes são divididos por um dicionário comum.
O tipo de algoritmo de segmentação de palavras do Baidu usa um algoritmo de correspondência máxima bidirecional.
Exemplo: consulta "Mao Zedong Beijing Hua Yanyun", resultados da segmentação de palavras do Baidu: "Mao Zedong/Pequim/Pequim Hua Yanyun"
A segmentação de palavras do Baidu pode identificar nomes de pessoas, e também pode identificar “Pequim Yanyun”, o que mostra que tem a função de identificar palavras que não estão registradas no dicionário.
Primeiro, consulte o dicionário especial (nomes de pessoas, alguns nomes de lugares, etc.), recorte os nomes próprios e adote uma estratégia de segmentação de palavras bidirecional para as duas partes restantes (correspondência máxima direta, correspondência máxima reversa). ) os resultados da segmentação são iguais, o que significa que não há ambigüidade, produza diretamente os resultados da segmentação da palavra.
Se forem inconsistentes, o resultado do caminho mais curto é produzido, ou seja, quanto menos fragmentos, melhor. Por exemplo, em comparação com <Cuba, Bi, Ética> e <Velha Babilônia, Li>, escolha o último, <Pequim. , Hua, Yanyun> Comparado com <Beijing Yanyun>, escolha o último.
Se os comprimentos forem iguais, selecione o grupo de resultados de segmentação com menos palavras únicas. "Distant Ancient Babylon", esta consulta foi segmentada pelo Baidu em <distante, antiga, Babilônia>, em vez de ser segmentada em "distante/antiga/antiga Babilônia"
Se as palavras também forem iguais, selecione o resultado da segmentação de palavras diretas. Consultando "Wang Qiang Xiao:", o Baidu irá segmentá-lo em "Wang/Qiang/Small" em vez de segmentá-lo inversamente em "Wang/Qiang/Small"
O Baidu sempre promoveu suas vantagens no processamento chinês. Do ponto de vista acima, não há nada de especial no algoritmo de segmentação de palavras, e o efeito de desambiguação não é ideal, mesmo que o Baidu adote um algoritmo que seja mais complexo do que a segmentação de palavras acima. algoritmo, é difícil dizer que é uma vantagem Se dissermos que se o Baidu tem uma vantagem, sua única vantagem é seu grande dicionário especial. Este dicionário especial contém nomes de pessoas (como Dae Jang Geum), títulos (como como Dae Jang Geum). a velha senhora) e alguns nomes de lugares (como Emirados Árabes Unidos, etc.). Estima-se que o Baidu adote as informações publicadas pela academia. O relativamente novo algoritmo de reconhecimento de entidade nomeada identifica continuamente palavras que não estão registradas no dicionário. do corpus, e amplia gradativamente esse dicionário especializado. ——Este artigo vem do endereço original da postagem do Fórum SEO da China: http://www.web520.com/bbs/thread-2742-1-1.html
Informações do autor: Lao Chen, um dos fundadores do China SEO Forum (www.web520.com/bbs)