De modo geral, se uma palavra ou frase pode se tornar uma palavra-chave em um artigo depende principalmente de sua capacidade de refletir a ideia central do artigo. A correlação entre palavras-chave e artigos serve principalmente para ilustrar quão bem uma palavra ou frase selecionada pode refletir a ideia central ou tema do artigo para um determinado artigo. A extração de palavras-chave é afetada pela posição da palavra no artigo, pela frequência de ocorrência e pelas características semânticas da palavra. Então, como os motores de busca determinam a correlação entre palavras-chave e artigos? Aqui, o autor parte de algumas de suas próprias opiniões e tem algumas ideias, que devem ser utilizadas para inspirar outras pessoas e obter a orientação de todos.
Pessoalmente, acho que os motores de busca devem analisar as palavras-chave e a natureza do artigo através das seguintes etapas:
Primeiro: o mecanismo de busca primeiro purifica as páginas da web a serem analisadas.
A purificação de páginas da Web remove principalmente um grande número de anúncios inúteis, barras de navegação e outros ruídos de modelos de páginas da Web, bem como conteúdo sem sentido, como scripts JavaScript, tags CSS e outros conteúdos da página da Web. Quanto ao algoritmo que o mecanismo de busca usa, não sabemos, mas minha estimativa pessoal é que ele divide as páginas da web em blocos diferentes, determina os blocos que contêm conteúdo temático medindo a importância dos blocos da página da web e, em seguida, extrai Como tanto para o conteúdo deste bloco, como para a forma como os motores de busca determinam a importância da velocidade da página web, esse é outro tópico.
Segundo: realizar o processamento de segmentação de palavras no conteúdo extraído
Pessoalmente, acho que o mecanismo de pesquisa pode ter usado algum tipo de algoritmo para segmentar aproximadamente o conteúdo em palavras e primeiro obter resultados de segmentação N com a maior probabilidade, depois usar o método de anotação de função para identificar palavras não registradas e calcular suas probabilidades. palavras são adicionadas ao gráfico de palavras segmentadas e, em seguida, tratadas como palavras comuns e, finalmente, a programação dinâmica é executada para selecionar N resultados de anotação de segmentação de probabilidade máxima. e grave-o.
Terceiro: Remova palavras sem sentido dos resultados preliminares da segmentação de palavras.
O mecanismo de busca analisa os resultados da segmentação de palavras na segunda etapa e remove algumas palavras não substanciais, como partículas modais e adjetivos, e algumas palavras. Ele também considera que as informações expressas por palavras de uma única palavra não são suficientemente completas e devem ser filtradas. . A remoção de palavras irrelevantes é realizada através da construção de uma lista de palavras irrelevantes. Dessa forma, após a remoção dessas palavras sem sentido, o que resta são palavras significativas e dignas de análise.
Quarto: Determine e analise o peso das palavras-chave
Após concluir a segmentação e purificação de palavras do artigo, é necessário analisar todas as palavras-chave do artigo. A ideia do autor é que o mecanismo de busca represente o texto como um vetor de características IV-dimensional, e cada componente dimensional seja composto por palavras-chave e. seus pesos. Geralmente, acredita-se que a determinação do peso das palavras-chave em um texto é composta principalmente por três partes: a frequência, a posição e o significado das palavras influenciam conjuntamente a decisão. O impacto da frequência e posição das palavras em palavras ou frases pode ser determinado por meio de certos algoritmos, e os pesos do significado das palavras também são analisados e calculados usando algoritmos fixos. O mecanismo de pesquisa usa um algoritmo definido para calcular e analisar as palavras-chave acima. Para obter o resultado final.
O autor acredita que o mecanismo de busca obterá o resultado final após analisá-lo através das etapas acima. O autor fala aqui sobre seu método de análise específico do mecanismo de busca, que é apenas sua opinião pessoal:
Primeiro: peso do mecanismo de pesquisa com base na posição da palavra-chave
Em um documento, a localização de uma palavra-chave desempenha um papel importante na determinação do peso de uma palavra-chave na página para os mecanismos de busca. Por exemplo, o nome de domínio é considerado pelos motores de busca como o fator mais fixo do site. Por exemplo, um nome de domínio contendo a palavra-chave DVD tem uma vantagem inerente quando os usuários pesquisam a palavra-chave DVD. O título é o recurso mais valioso do site. Os motores de busca acreditam que o título é exibido na barra de título do navegador. Por ser exibido aos usuários, é o resumo mais importante e conciso do arquivo. Destacar adequadamente a proporção de palavras-chave no título contribui muito para melhorar as classificações.
Segundo: os mecanismos de pesquisa são baseados na frequência das palavras-chave
O número total de palavras-chave diferentes na página web é um aspecto muito importante. Pessoalmente, acho que embora a localização e a frequência das palavras-chave tenham uma grande influência no peso das palavras-chave, a alta frequência das palavras não determina se a palavra é adequada como palavra-chave. Para dar um exemplo simples, estamos otimizando “Estados Unidos” em um artigo. A frequência da palavra é muito alta e a posição onde ela aparece também é muito importante, porém, esta palavra ainda não pode receber um peso maior porque “Unidos”. Estados Unidos" também aparece amplamente em outros documentos. Nestes documentos, "Estados Unidos" também aparece com frequência e sua localização também é importante. Portanto, palavras que têm alta frequência, mas não são adequadas como palavras-chave, devem receber menos peso.
Terceiro: A distância entre palavras-chave importantes no documento
Na análise pessoal, a distância entre palavras-chave importantes no documento também deve ser um aspecto importante para medir a relevância das palavras-chave e dos artigos.
O autor acredita que após o mecanismo de busca realizar a série de processamento acima, ele dará ao artigo uma determinada pontuação para esta palavra-chave. Quando um usuário pesquisa uma determinada palavra-chave, a chance de o artigo com pontuação alta ser classificado em primeiro lugar é. muito maior. Claro, isso exclui a influência de links externos. Acima estão algumas opiniões pessoais sobre mecanismos de pesquisa, que não são necessariamente corretas. Espero poder aprender com elas juntos. Finalmente, os direitos autorais do artigo pertencem a: Hospital de Aborto de Guangzhou: http://www.gzrlw.net/ . Você está convidado a reimprimi-lo, mas por favor, guarde o link, obrigado pela sua compreensão e cooperação!
Obrigado a siyi8473 por sua contribuição