O algoritmo TF-IDF é bem conhecido por muitos profissionais de SEO. É uma tecnologia de ponderação comumente usada para recuperação e exploração de informações. Quando aplicado à análise de páginas da web, ele pondera as palavras-chave relevantes na página da web e analisa muitas páginas da web. Os pesos relevantes das palavras-chave da página da web de uma palavra-chave específica na classificação são fornecidos e uma base científica é fornecida no algoritmo de classificação final.
Primeiro, dê uma olhada na fórmula TF*IDF: Valor TF*IDF = TF×IDF (TF vezes IDF) = 1+log TF(t,d) ×IDF(t) = 1+log TF(t,d) × log (N/DF(t)). Por que devemos analisar esta fórmula Porque quanto maior o valor TF-IDF de uma página web, mais relevantes são o conteúdo do texto e as palavras de índice da página web, maior o peso que ela pode obter no mecanismo de busca, que pode fornecer? melhor classificação para páginas da web posteriores. Ótimo suporte.
A frequência do termo TF (Frequência do Termo) em TF*IDF indica a frequência de ocorrência do termo em um documento, enquanto a frequência inversa do documento IDF (Frequência Inversa do Documento) indica que se o número de documentos contendo o termo t for menor, o IDF será maior. Isso mostra que a entrada t possui boa capacidade de discriminação de categoria. O IDF expresso pela fórmula pode ser escrito como: IDF(t) = log(N / DF(t)). DF(t) representa o número de documentos contendo um determinado termo de pesquisa (representado por t), e N representa o número total de páginas web na Internet.
É difícil compreender completamente esses conceitos. Deixe-me dar um exemplo para que você possa entendê-los bem.
Usando TF-IDF para explicar o fenômeno de classificação de "diagnóstico de SEO"
Por exemplo, para a classificação da página da web da palavra-chave "diagnóstico de SEO", verificamos algumas análises de exibição de frequência de palavras relacionadas a esta palavra em três dos dez principais sites:
Em segundo lugar está o diagnóstico de SEO do A5. Suas frequências de palavras de “SEO” e “diagnóstico” são 41 e 46, respectivamente, e a frequência de palavras de “diagnóstico de SEO” é 20;
O site classificado em terceiro lugar é uma empresa em Changsha. A frequência das palavras "SEO" e "diagnóstico" é 12 e 4, respectivamente, e a frequência das palavras "Diagnóstico de SEO" é 1;
O blog My Smell the Rose ocupa o décimo lugar entre os sites, a frequência da palavra "SEO" é a mais alta, chegando a 84, a frequência da palavra "diagnóstico" é 7 e a frequência da palavra "diagnóstico de SEO" é 4.
A pesquisa por "diagnóstico de SEO" mostra cerca de 1.530.000 páginas. "SEO" e "diagnóstico" são o limite superior do Baidu de cerca de 100 milhões, totalizando N = 1 bilhão. Portanto, os valores TF*IDF de três palavras-chave em três páginas da web são calculados da seguinte forma:
1. Primeiro calcule os valores IDF de três palavras:
SEO: IDF= log(N / DF(t))= log(10000/1)=4
Diagnóstico: IDF= log(N / DF(t))= log(10000/1)=4
Diagnóstico SEO: IDF= log(N / DF(t))= log(10000/0,015)= 7-log15≈6
2. Calcule o valor TF de três palavras:
O valor TF da palavra-chave SEO para as três estações:
Changsha: TF= log(TF(t,d))= log12≈1,1
A5: TF= log(TF(t,d))= log41≈1,64
Cheire a rosa: TF= log(TF(t,d))= log84≈1,92
O valor TF da palavra-chave diagnóstico para as três estações:
Changsha: TF= log(TF(t,d))= log4≈0,63
A5: TF= log(TF(t,d))= log46≈1,68
Cheire a rosa: TF= log(TF(t,d))= log7≈0,84
Valor TF do diagnóstico de SEO de palavras-chave para três estações:
Changsha: TF= log(TF(t,d))= log1=0
A5: TF= log(TF(t,d))= log20≈1,45
Cheire a rosa: TF= log(TF(t,d))= log4≈0,63
3. Os valores TF*IDF de três palavras de três sites são:
Na tabela acima, podemos ver claramente que meu blog "SEO" tem o valor TF*IDF mais alto, e "Diagnóstico" e "Diagnóstico de SEO" da A5 Webmaster Network têm o valor TF*IDF mais alto.
Se você observar apenas a correlação calculada a partir do valor TF*IDF, a classificação da palavra "diagnóstico de SEO" é a mais alta e a A5 Webmaster Network deve obter uma classificação melhor. antes de ontem estava de fato entre os dois), a Estação Changsha deveria estar no final, mas parece haver uma certa lacuna com os resultados reais. Isto mostra que existem outros fatores mais importantes na classificação das páginas de um site, como o peso geral do site, o peso e a qualidade das páginas individuais, links externos e interação do usuário (ou seja, experiência do usuário), que precisamos considerar.
Além disso, comparando o valor TF*IDF do mesmo site, a estação Changsha e meu blog Xiaoxiangqiangwei precisam melhorar suas classificações. Os requisitos para a classificação da palavra-chave "SEO" são relativamente altos. A classificação "SEO" desempenha um papel decisivo. e A5 A classificação do “Diagnóstico de SEO” no site do webmaster desempenha um papel decisivo, e a classificação da palavra-chave “SEO” tem menos impacto nas suas flutuações de classificação. Há alguma base para isso. Por exemplo, anteontem, meu blog "Diagnóstico de SEO" ocupava o terceiro lugar. Naquela época, a palavra-chave "SEO" estava na página 10. Agora caiu para a página 23 e a classificação caiu. caiu para décimo, então eu uso mais o TF * IDF. A pesquisa pode nos ajudar a descobrir muitos fenômenos de classificação de palavras-chave e formular estratégias de otimização de SEO direcionadas.
É claro que esse cálculo é baseado em um estado ideal, mas também pode explicar as causas de alguns fenômenos de SEO, desde que possamos dominar a ideia básica do algoritmo TF*IDF e depois aplicá-la à otimização de sites, iremos. definitivamente ser capaz de otimizar melhor o site, como Meu blog, ao reduzir o impacto da palavra "SEO" nas classificações do site, poderá controlar melhor a classificação da palavra-chave "Diagnóstico de SEO" na página da web.
Este artigo foi publicado por Xu Ziyu, editor da Hangzhou SEO ( http://www.soxunseo.com ) Rede de pesquisa. Todos são bem-vindos para reimprimir.
(Editor: Yang Yang) Espaço pessoal do autor Xu Ziyu