El algoritmo TF-IDF es bien conocido por muchos trabajadores profesionales de SEO. Es una tecnología de ponderación de uso común para la recuperación y exploración de información. Cuando se aplica al análisis de páginas web, pondera las palabras clave relevantes en la página web y analiza muchas páginas web. Se proporcionan los pesos de las palabras clave relevantes de la página web de una palabra clave específica en la clasificación y se proporciona una base científica en el algoritmo de clasificación final.
Primero eche un vistazo a la fórmula TF*IDF: Valor TF*IDF = TF×IDF (TF multiplicado por IDF) = 1+log TF(t,d) ×IDF(t) = 1+log TF(t,d) × registro (N/DF(t)). ¿Por qué deberíamos analizar esta fórmula? Porque cuanto mayor sea el valor TF-IDF de una página web, cuanto más relevantes sean el contenido del texto y las palabras índice de la página web, mayor será el peso que puede obtener en el motor de búsqueda, lo que puede proporcionar. mejor clasificación para páginas web posteriores. Gran soporte.
La frecuencia de términos de TF (Frecuencia de términos) en TF*IDF indica la frecuencia de aparición del término en un documento, mientras que la frecuencia de documentos inversa de IDF (Frecuencia de documentos inversa) indica que si la cantidad de documentos que contienen el término t es menor, la IDF será mayor. Esto muestra que la entrada t tiene una buena capacidad de discriminación de categorías. La IDF expresada por la fórmula se puede escribir como: IDF(t) = log(N / DF(t)). DF (t) representa la cantidad de documentos que contienen un determinado término de búsqueda (representado por t) y N representa la cantidad total de páginas web en Internet.
Es difícil entender estos conceptos a fondo. Déjame darte un ejemplo para que puedas entenderlos bien.
Uso de TF-IDF para explicar el fenómeno de clasificación del "diagnóstico SEO"
Por ejemplo, para la clasificación de la página web de la palabra clave "diagnóstico SEO", verificamos algunos análisis de visualización de frecuencia de palabras relacionadas con esta palabra en tres de los diez sitios web principales:
En segundo lugar está el diagnóstico de SEO de A5. Sus frecuencias de palabras de "SEO" y "diagnóstico" son 41 y 46 respectivamente, y la frecuencia de palabras de "diagnóstico de SEO" es 20;
El sitio web clasificado en tercer lugar es una empresa de Changsha. Su frecuencia de palabras para "SEO" y "diagnóstico" es 12 y 4 respectivamente, y la frecuencia de palabras para "diagnóstico SEO" es 1;
Mi blog Smell the Rose ocupa el décimo lugar entre los sitios web, la frecuencia de palabras de "SEO" es la más alta, alcanzando 84, la frecuencia de palabras de "diagnóstico" es 7 y la frecuencia de palabras de "diagnóstico SEO" es 4.
La búsqueda de "diagnóstico de SEO" muestra alrededor de 1.530.000 páginas. "SEO" y "diagnóstico" son el límite superior de Baidu de aproximadamente 100.000.000, tomando N = 1000 mil millones. Por lo tanto, los valores TF*IDF de tres palabras clave en tres páginas web se calculan de la siguiente manera:
1. Primero calcule los valores IDF de tres palabras:
SEO: IDF = iniciar sesión (N / DF (t)) = iniciar sesión (10000/1) = 4
Diagnóstico: IDF= log(N / DF(t))= log(10000/1)=4
Diagnóstico SEO: IDF= log(N / DF(t))= log(10000/0.015)= 7-log15≈6
2. Calcule el valor TF de tres palabras:
El valor TF de la palabra clave SEO para las tres estaciones:
Changsha: TF= Iniciar sesión(TF(t,d))= log12≈1.1
A5: TF= Iniciar sesión(TF(t,d))= log41≈1.64
Huele la rosa: TF= log(TF(t,d))= log84≈1.92
El valor TF del diagnóstico de palabras clave para las tres estaciones:
Changsha: TF= Iniciar sesión(TF(t,d))= log4≈0.63
A5: TF= Iniciar sesión(TF(t,d))= log46≈1.68
Huele la rosa: TF= log(TF(t,d))= log7≈0.84
Valor TF del diagnóstico SEO de palabras clave para tres estaciones:
Changsha: TF= Iniciar sesión(TF(t,d))= Iniciar sesión1=0
A5: TF= log(TF(t,d))= log20≈1.45
Huele la rosa: TF= log(TF(t,d))= log4≈0.63
3. Los valores TF*IDF de tres palabras de tres sitios web son:
En la tabla anterior, podemos ver claramente que mi blog "SEO" tiene el valor TF*IDF más alto, y "Diagnóstico" y "Diagnóstico SEO" de A5 Webmaster Network tienen el valor TF*IDF más alto.
Si nos fijamos únicamente en la correlación calculada a partir del valor TF*IDF, la clasificación de la palabra "diagnóstico SEO" es la más alta y A5 Webmaster Network debería obtener una mejor clasificación. Mi blog debería clasificarse entre las dos (la clasificación del día). antes de ayer estaba entre los dos), la estación Changsha debería estar al final, pero parece haber una cierta brecha con los resultados reales. Esto muestra que hay otros factores más importantes en la clasificación de las páginas de un sitio web, como el peso general del sitio web, el peso y la calidad de las páginas web individuales, los enlaces externos y la interacción del usuario (es decir, la experiencia del usuario), que debemos considerar.
Además, al comparar el valor TF * IDF del mismo sitio web, la estación Changsha y mi blog Xiaoxiangqiangwei necesitan mejorar sus clasificaciones. Los requisitos para la clasificación de palabras clave "SEO" son relativamente altos. La clasificación "SEO" juega un papel decisivo. y A5 La clasificación del "Diagnóstico SEO" en el sitio web del webmaster juega un papel decisivo, y la clasificación de la palabra clave "SEO" tiene menos impacto en las fluctuaciones de su clasificación. Hay alguna base para esto, por ejemplo, anteayer, mi blog "SEO Diagnosis" ocupó el tercer lugar. En ese momento, la palabra clave "SEO" ocupaba la página 10. Ahora ha bajado a la página 23 y la clasificación ha bajado. cayó al décimo lugar, por lo que uso más TF*IDF. La investigación puede ayudarnos a descubrir muchos fenómenos de clasificación de palabras clave y formular estrategias de optimización SEO específicas.
Por supuesto, este cálculo se basa en un estado ideal, pero también puede explicar las causas de algunos fenómenos de SEO. Siempre que podamos dominar la idea básica del algoritmo TF*IDF y luego aplicarlo a la optimización del sitio web. Definitivamente podrá optimizar mejor el sitio web, como Mi blog, al reducir el impacto de la palabra "SEO" en la clasificación del sitio web, podrá controlar mejor la clasificación de la palabra clave "Diagnóstico SEO" en la página web.
Este artículo fue publicado por Xu Ziyu, editor de Hangzhou SEO ( http://www.soxunseo.com ) Todos pueden reimprimir. Conserve este enlace al reimprimir.
(Editor: Yang Yang) Espacio personal del autor Xu Ziyu