Der TF-IDF-Algorithmus ist vielen professionellen SEO-Mitarbeitern bekannt. Er ist eine häufig verwendete Gewichtungstechnologie zum Abrufen und Erkunden von Informationen. Bei der Anwendung auf die Webseitenanalyse werden die relevanten Schlüsselwörter auf der Webseite gewichtet und viele Webseiten analysiert Die relevanten Webseiten-Keyword-Gewichte eines bestimmten Keywords im Ranking werden angegeben, und im endgültigen Sortieralgorithmus wird eine wissenschaftliche Grundlage angegeben.
Schauen Sie sich zunächst die TF*IDF-Formel an: TF*IDF-Wert = TF×IDF (TF mal IDF) = 1+log TF(t,d) ×IDF(t) = 1+log TF(t,d) × log (N/DF(t)). Warum sollten wir diese Formel analysieren? Denn je größer der TF-IDF-Wert einer Webseite ist, desto relevanter sind der Textinhalt und die Indexwörter auf der Webseite, desto höher ist das Gewicht, das sie in der Suchmaschine erhalten kann Besseres Ranking für spätere Webseiten. Tolle Unterstützung.
TF-Begriffshäufigkeit (Term Frequency) in TF*IDF gibt die Häufigkeit des Auftretens von Begriffen in einem Dokument an, während IDF inverse Document Frequency (Inverse Document Frequency) angibt, dass die IDF größer ist, wenn die Anzahl der Dokumente, die den Begriff t enthalten, geringer ist. Dies zeigt, dass der Eintrag t über eine gute Fähigkeit zur Kategorieunterscheidung verfügt. Der durch die Formel ausgedrückte IDF kann wie folgt geschrieben werden: IDF(t) = log(N / DF(t)). DF(t) stellt die Anzahl der Dokumente dar, die einen bestimmten Suchbegriff enthalten (dargestellt durch t), und N stellt die Gesamtzahl der Webseiten im Internet dar.
Es ist schwierig, diese Konzepte vollständig zu verstehen. Lassen Sie mich ein Beispiel geben, damit Sie sie gut verstehen können.
Verwendung von TF-IDF zur Erklärung des Ranking-Phänomens „SEO-Diagnose“.
Für das Webseiten-Ranking des Schlüsselworts „SEO-Diagnose“ haben wir beispielsweise eine Analyse der Worthäufigkeitsanzeige von Wörtern durchgeführt, die mit diesem Wort auf drei der zehn besten Websites verwandt sind:
An zweiter Stelle steht die SEO-Diagnose von A5. Ihre Worthäufigkeit von „SEO“ und „Diagnose“ liegt bei 41 bzw. 46, und die Worthäufigkeit von „SEO-Diagnose“ beträgt 20;
Die drittplatzierte Website ist ein Unternehmen in Changsha. Ihre Worthäufigkeit für „SEO“ und „Diagnose“ beträgt 12 bzw. 4, und die Worthäufigkeit von „SEO-Diagnose“ beträgt 1;
Mein Smell the Rose-Blog liegt mit 84 am höchsten unter den Websites, die Worthäufigkeit von „Diagnose“ liegt bei 7 und die Worthäufigkeit von „SEO-Diagnose“ bei 4.
Die Suche nach „SEO-Diagnose“ zeigt etwa 1.530.000 Seiten. „SEO“ und „Diagnose“ sind Baidus Obergrenze von etwa 100.000.000, was N=1000 Milliarden entspricht. Daher werden die TF*IDF-Werte von drei Schlüsselwörtern auf drei Webseiten wie folgt berechnet:
1. Berechnen Sie zunächst die IDF-Werte von drei Wörtern:
SEO: IDF= log(N / DF(t))= log(10000/1)=4
Diagnose: IDF= log(N / DF(t))= log(10000/1)=4
SEO-Diagnose: IDF= log(N / DF(t))= log(10000/0,015)= 7-log15≈6
2. Berechnen Sie den TF-Wert von drei Wörtern:
Der TF-Wert von Keyword-SEO für die drei Stationen:
Changsha: TF= log(TF(t,d))= log12≈1,1
A5: TF= log(TF(t,d))= log41≈1,64
Riechen Sie die Rose: TF= log(TF(t,d))= log84≈1,92
Der TF-Wert der Schlüsselwortdiagnose für die drei Stationen:
Changsha: TF= log(TF(t,d))= log4≈0,63
A5: TF= log(TF(t,d))= log46≈1,68
Riechen Sie die Rose: TF= log(TF(t,d))= log7≈0,84
TF-Wert der Keyword-SEO-Diagnose für drei Stationen:
Changsha: TF= log(TF(t,d))= log1=0
A5: TF= log(TF(t,d))= log20≈1,45
Riechen Sie die Rose: TF= log(TF(t,d))= log4≈0,63
3. Die TF*IDF-Werte von drei Wörtern von drei Websites sind:
Aus der obigen Tabelle können wir deutlich erkennen, dass mein Blog „SEO“ den höchsten TF*IDF-Wert hat und „Diagnosis“ und „SEO Diagnosis“ von A5 Webmaster Network den höchsten TF*IDF-Wert haben.
Betrachtet man lediglich die aus dem TF*IDF-Wert berechnete Korrelation, ist das Ranking des Wortes „SEO-Diagnose“ am höchsten und A5 Webmaster Network sollte ein besseres Ranking erhalten (das Ranking des Tages). vor gestern war zwar zwischen den beiden), Changsha Station sollte am Ende sein, aber es scheint eine gewisse Lücke zu den tatsächlichen Ergebnissen zu geben. Dies zeigt, dass es andere wichtigere Faktoren für das Seitenranking einer Website gibt, wie das Gesamtgewicht der Website, das Gewicht und die Qualität einzelner Webseiten, externe Links und Benutzerinteraktion (d. h. Benutzererfahrung), die wir berücksichtigen müssen.
Darüber hinaus müssen beim Vergleich des TF*IDF-Werts derselben Website die Rankings des Changsha-Senders und meines Xiaoxiangqiangwei-Blogs relativ hoch sein Das „SEO“-Ranking spielt eine entscheidende Rolle. und A5 Das Ranking von „SEO-Diagnose“ auf der Website des Webmasters spielt eine entscheidende Rolle, und das Ranking des Keywords „SEO“ hat weniger Einfluss auf dessen Ranking-Schwankungen. Dafür gibt es eine gewisse Grundlage. Vorgestern rangierte mein Blog „SEO-Diagnose“ damals auf Seite 10. Jetzt ist es auf Seite 23 gesunken, und das Ranking hat zugenommen ist auf den zehnten Platz gesunken, daher nutze ich mehr TF*IDF. Forschung kann uns dabei helfen, viele Keyword-Ranking-Phänomene zu entdecken und gezielte SEO-Optimierungsstrategien zu formulieren.
Natürlich basiert diese Berechnung auf einem Idealzustand, kann aber auch die Ursachen einiger SEO-Phänomene erklären. Solange wir die Grundidee des TF*IDF-Algorithmus beherrschen und sie dann auf die Website-Optimierung anwenden können, werden wir dies tun B. Mein Blog, durch die Reduzierung des Einflusses des Wortes „SEO“ auf das Website-Ranking auf jeden Fall besser optimieren und möglicherweise das Ranking des Schlüsselworts „SEO-Diagnose“ auf der Webseite besser steuern können.
Dieser Artikel wurde von Xu Ziyu, Herausgeber des Suchnetzwerks Hangzhou SEO ( http://www.soxunseo.com ), veröffentlicht. Bitte behalten Sie diesen Link beim Nachdruck bei.
(Herausgeber: Yang Yang) Der persönliche Bereich des Autors Xu Ziyu