L'algorithme TF-IDF est bien connu de nombreux professionnels du référencement. Il s'agit d'une technologie de pondération couramment utilisée pour la récupération et l'exploration d'informations. Lorsqu'elle est appliquée à l'analyse de pages Web, elle pondère les mots-clés pertinents de la page Web et analyse de nombreuses pages Web. . Les poids pertinents des mots clés de la page Web d'un mot clé spécifique dans le classement sont indiqués, et une base scientifique est donnée dans l'algorithme de tri final.
Jetez d’abord un œil à la formule TF*IDF : Valeur TF*IDF = TF×IDF (TF fois IDF) = 1+log TF(t,d) ×IDF(t) = 1+log TF(t,d) × log (N/DF(t)). Pourquoi devrions-nous analyser cette formule ? Parce que plus la valeur TF-IDF d'une page Web est élevée, plus le contenu du texte et les mots d'index de la page Web sont pertinents, plus le poids qu'elle peut obtenir sur le moteur de recherche, ce qui peut fournir, est élevé. meilleur classement pour les pages Web ultérieures. Excellent support.
La fréquence des termes TF (Term Frequency) dans TF*IDF indique la fréquence d'apparition des termes dans un document, tandis que la fréquence des documents inverses IDF (Inverse Document Frequency) indique que si le nombre de documents contenant le terme t est inférieur, l'IDF sera plus grand. Cela montre que l'entrée t a une bonne capacité de discrimination de catégorie. L'IDF exprimé par la formule peut s'écrire comme suit : IDF(t) = log(N / DF(t)). DF(t) représente le nombre de documents contenant un certain terme de recherche (représenté par t) et N représente le nombre total de pages Web sur Internet.
Il est difficile de bien comprendre ces concepts. Laissez-moi vous donner un exemple pour que vous puissiez bien les comprendre.
Utiliser TF-IDF pour expliquer le phénomène de classement « diagnostic SEO »
Par exemple, pour le classement de la page Web du mot-clé « diagnostic SEO », nous avons vérifié une analyse de l'affichage de la fréquence des mots liés à ce mot sur trois des dix premiers sites Web :
En deuxième position se trouve le diagnostic SEO d'A5. Leurs fréquences de mots « SEO » et « diagnostic » sont respectivement de 41 et 46, et la fréquence des mots de « diagnostic SEO » est de 20 ;
Le site Web classé troisième est une entreprise de Changsha. Leur fréquence de mots « SEO » et « diagnostic » sont respectivement de 12 et 4, et la fréquence des mots de « diagnostic SEO » est de 1 ;
Le blog My Smell the Rose se classe dixième parmi les sites Web, la fréquence des mots « SEO » est la plus élevée, atteignant 84, la fréquence des mots « diagnostic » est de 7 et la fréquence des mots « diagnostic SEO » est de 4.
La recherche de « diagnostic SEO » montre environ 1 530 000 pages « SEO » et « diagnostic » correspond à la limite supérieure de Baidu d'environ 100 000 000, en prenant N = 1 000 milliards. Par conséquent, les valeurs TF*IDF de trois mots-clés sur trois pages Web sont calculées comme suit :
1. Calculez d'abord les valeurs IDF de trois mots :
SEO : IDF= log(N / DF(t))= log(10000/1)=4
Diagnostic : IDF= log(N / DF(t))= log(10000/1)=4
Diagnostic SEO : IDF= log(N / DF(t))= log(10000/0.015)= 7-log15≈6
2. Calculez la valeur TF de trois mots :
La valeur TF du référencement par mot-clé pour les trois stations :
Changsha : TF= log(TF(t,d))= log12≈1.1
A5 : TF= log(TF(t,d))= log41≈1,64
Sentez la rose : TF= log(TF(t,d))= log84≈1.92
La valeur TF du diagnostic par mot-clé pour les trois stations :
Changsha : TF= log(TF(t,d))= log4≈0,63
A5 : TF= log(TF(t,d))= log46≈1,68
Sentez la rose : TF= log(TF(t,d))= log7≈0.84
Valeur TF du diagnostic SEO des mots clés pour trois stations :
Changsha : TF= log(TF(t,d))= log1=0
A5 : TF= log(TF(t,d))= log20≈1,45
Sentez la rose : TF= log(TF(t,d))= log4≈0.63
3. Les valeurs TF*IDF de trois mots provenant de trois sites Web sont :
D'après le tableau ci-dessus, nous pouvons clairement voir que mon blog « SEO » a la valeur TF*IDF la plus élevée, et que « Diagnostic » et « Diagnostic SEO » d'A5 Webmaster Network ont la valeur TF*IDF la plus élevée.
Si vous regardez uniquement la corrélation calculée à partir de la valeur TF*IDF, le classement du mot « diagnostic SEO » est le plus élevé et A5 Webmaster Network devrait obtenir un meilleur classement. Mon blog devrait se classer entre les deux (le classement du jour. avant hier se situait effectivement entre les deux), la gare de Changsha devrait être à la fin, mais il semble y avoir un certain écart avec les résultats réels. Cela montre qu'il existe d'autres facteurs plus importants dans le classement des pages d'un site Web, tels que le poids global du site Web, le poids et la qualité des pages Web individuelles, les liens externes et l'interaction de l'utilisateur (c'est-à-dire l'expérience utilisateur), que nous devons prendre en compte.
De plus, en comparant la valeur TF*IDF du même site Web, la station Changsha et mon blog Xiaoxiangqiangwei doivent améliorer leur classement. Les exigences pour le classement du mot-clé « SEO » sont relativement élevées. et A5 Le classement du « Diagnostic SEO » sur le site du webmaster joue un rôle déterminant, et le classement du mot-clé « SEO » a moins d'impact sur les fluctuations de son classement. Il y a une certaine base à cela. Par exemple, avant-hier, mon blog « Diagnostic SEO » se classait à la troisième place, le mot-clé « SEO » se classait à la page 10. Il est maintenant tombé à la page 23, et le classement a augmenté. est tombé au dixième rang, j'utilise donc davantage TF*IDF. La recherche peut nous aider à découvrir de nombreux phénomènes de classement des mots clés et à formuler des stratégies d'optimisation SEO ciblées.
Bien sûr, ce calcul est basé sur un état idéal, mais il peut aussi expliquer les causes de certains phénomènes SEO. Tant que nous pouvons maîtriser l'idée de base de l'algorithme TF*IDF et ensuite l'appliquer à l'optimisation de sites Web, nous le ferons. certainement mieux optimiser le site Web, comme Mon blog, en réduisant l'impact du mot « SEO » sur le classement du site Web, peut-être mieux contrôler le classement du mot-clé « diagnostic SEO » sur la page Web.
Cet article a été publié par Xu Ziyu, rédacteur en chef du Hangzhou SEO ( http://www.soxunseo.com ) Search Network. Tout le monde est invité à réimprimer. Veuillez conserver ce lien lors de la réimpression. Merci pour votre coopération !
(Editeur : Yang Yang) Espace personnel de l'auteur Xu Ziyu