Compreender a tecnologia de segmentação de palavras do mecanismo de pesquisa é de grande importância para o nosso trabalho de SEO. Quer se trate do layout de palavras-chave ou da estrutura de links, ela está intimamente relacionada à segmentação de palavras. Aqui Xiao Han falará sobre a segmentação de palavras chinesas do Baidu (é claro que não se limita ao Baidu, outros mecanismos de busca são semelhantes). Este artigo está dividido em duas partes. A primeira é extrair as explicações existentes sobre a segmentação de palavras e, em seguida, adicionar minhas próprias ideias expandidas sobre a segmentação de palavras.
O que é segmentação de palavras chinesas?
Todos sabemos que as frases em inglês são compostas por palavras separadas por espaços, por isso a segmentação de palavras é muito mais conveniente. No entanto, as nossas frases em chinês são compostas por caracteres chineses ligados um por um, por isso é relativamente complicado. A segmentação de palavras chinesas refere-se ao processo de cortar uma frase chinesa em palavras individuais e remontá-las em sequências de palavras de acordo com certas regras. Isso também é chamado de "segmentação de palavras chinesas".
A segmentação de palavras desempenha um papel importante nos motores de busca e é a base da mineração de texto. Ela pode ajudar os programas a identificar automaticamente o significado das frases para alcançar um alto grau de correspondência nos resultados da pesquisa. . Atualmente, os métodos de segmentação de palavras em mecanismos de pesquisa usam principalmente correspondência de dicionário e estatísticas.
1. Método de segmentação de palavras baseado na correspondência de dicionário
Este método requer primeiro um dicionário muito grande, que é uma biblioteca de índice de segmentação de palavras, e então combina a string a ser segmentada com as palavras no dicionário de sinônimos de acordo com certas regras. Se uma determinada palavra for encontrada, a correspondência será bem-sucedida. quatro métodos de correspondência:
1. Método de correspondência máxima direta (direção da esquerda para a direita);
2. Método de correspondência máxima inversa (direção da direita para a esquerda);
3. Segmentação mínima (minimizar o número de palavras em cada frase);
4. Método de correspondência máxima bidirecional (digitalização duas vezes da esquerda para a direita e da direita para a esquerda)
Normalmente, os motores de busca usam uma combinação de métodos. Mas este método também traz dificuldades aos motores de busca, como o tratamento de ambiguidades (a chave é a amplitude e profundidade da nossa língua chinesa. Para melhorar a precisão da correspondência, os motores de busca também simularão a compreensão humana das frases para alcançar o reconhecimento de palavras). efeito. A ideia básica é realizar análises sintáticas e semânticas ao segmentar palavras e usar informações sintáticas e semânticas para lidar com a ambigüidade. Geralmente inclui três partes: subsistema de segmentação de palavras, subsistema de sintaxe e semântica e parte de controle geral. Sob a coordenação da parte de controle geral, o subsistema de segmentação de palavras pode obter informações sintáticas e semânticas sobre palavras, sentenças, etc. para julgar a ambiguidade da segmentação de palavras, ou seja, simula o processo de compreensão humana das sentenças. Este método de segmentação de palavras requer o uso de muito conhecimento e informações linguísticas. É claro que nossos mecanismos de busca também estão em constante aprimoramento.
2. Método de segmentação de palavras baseado em estatísticas
Embora o dicionário de segmentação de palavras resolva muitos problemas, ainda está longe de ser suficiente. O mecanismo de busca também deve ter a capacidade de descobrir continuamente novas palavras e determinar se é uma palavra separada, calculando a probabilidade de aparecimento de palavras adjacentes. Portanto, quanto mais contexto você tiver, mais precisa será a sua compreensão da frase e mais precisa será a segmentação das palavras. Por exemplo, "otimização de mecanismo de pesquisa" pode ser correspondido no dicionário como: pesquisa/mecanismo/otimização, pesquisa/índice/mecanismo/otimização, mas após cálculos de probabilidade posteriores, descobriu-se que "otimização de mecanismo de pesquisa" é adjacente no contexto .Se aparecer muito, a palavra será adicionada ao índice de palavras com base nas estatísticas.
Aplicação de segmentação de palavras chinesas
A precisão da segmentação de palavras é muito importante para os motores de busca, mas se a velocidade de segmentação de palavras for muito lenta, não importa quão alta seja a precisão, ela não será utilizável para os motores de busca, porque os motores de busca precisam processar centenas de milhões de páginas da web. páginas. Se a segmentação de palavras consumir Se o tempo for muito longo, isso afetará seriamente a velocidade de atualização do conteúdo do mecanismo de pesquisa. Portanto, para mecanismos de busca, tanto a precisão quanto a velocidade da segmentação de palavras precisam atender a requisitos muito elevados.
Para nós, profissionais de SEO, devemos dominar os princípios e métodos de segmentação de palavras, para que possamos projetar nosso site de forma que os mecanismos de pesquisa possam determinar facilmente a relevância do tópico. Por exemplo, nosso site é sobre treinamento em SEO. Quando um usuário pesquisa essa palavra, o mecanismo de busca primeiro a segmenta, como "SEO" e "treinamento", e depois a compara separadamente no banco de dados de índice. Há outro ponto envolvido aqui, e também é meu próprio resumo. Após cada segmentação de palavra, há um sujeito e um advérbio. Geralmente, o sujeito é combinado primeiro e depois o advérbio é combinado. sujeito aqui, então é correspondido primeiro e depois o advérbio de treinamento. Assim, cabe a cada um pensar em como o nosso site deve ser organizado e estruturado.
Autor: Xiao Han publicou pela primeira vez o blog Xiao Han SEO,
Endereço original: http://www.xiaohan86.com/2011061149.html Indique a fonte ao reimprimir.
Obrigado Xiao Han pela sua contribuição