TF-IDF 알고리즘은 많은 전문 SEO 작업자들에게 잘 알려져 있으며, 정보 검색 및 정보 탐색을 위해 흔히 사용되는 가중치 부여 기술로, 웹 페이지 분석에 적용하면 웹 페이지 내 관련 키워드에 가중치를 부여하여 많은 웹 페이지를 분석합니다. . 순위에서 특정 키워드의 관련 웹페이지 키워드 가중치가 부여되며, 최종 정렬 알고리즘에는 과학적인 근거가 부여됩니다.
먼저 TF*IDF 공식을 살펴보십시오. TF*IDF 값 = TF×IDF (TF 곱하기 IDF) = 1+log TF(t,d) ×IDF(t) = 1+log TF(t,d) × 로그(N/DF(t)). 이 공식을 분석해야 하는 이유는 웹 페이지의 TF-IDF 값이 클수록 웹 페이지의 텍스트 콘텐츠와 색인 단어의 관련성이 높을수록 검색 엔진에서 얻을 수 있는 가중치가 높아지기 때문입니다. 이후 웹페이지에 대한 더 나은 순위를 제공합니다.
TF*IDF의 TF 용어 빈도(Term Frequency)는 문서에서 용어 발생 빈도를 나타내고, IDF 역 문서 빈도(Inverse Document Frequency)는 용어 t를 포함하는 문서 수가 적을수록 IDF가 더 커진다는 것을 나타냅니다. 이는 항목 t가 좋은 범주 식별 능력을 가지고 있음을 보여줍니다. 공식으로 표현되는 IDF는 다음과 같이 쓸 수 있습니다. IDF(t) = log(N / DF(t)). DF(t)는 특정 검색어(t로 표시)가 포함된 문서의 수를 나타내고, N은 인터넷상의 전체 웹페이지 수를 나타낸다.
이러한 개념을 완전히 이해하는 것은 어렵습니다. 잘 이해할 수 있도록 예를 들어 보겠습니다.
TF-IDF를 사용하여 "SEO 진단" 순위 현상 설명
예를 들어, "SEO 진단"이라는 키워드의 웹 페이지 순위에 대해 상위 10개 웹 사이트 중 3개에서 이 단어와 관련된 단어의 단어 빈도 표시 분석을 확인했습니다.
2위는 A5의 SEO 진단으로, 'SEO'와 '진단'의 단어 빈도는 각각 41과 46이고, 'SEO 진단'의 단어 빈도는 20입니다.
3위를 차지한 웹사이트는 창사 소재 회사입니다. 'SEO'와 '진단'의 단어 빈도는 각각 12와 4이고, 'SEO 진단'의 단어 빈도는 1입니다.
My Smell the Rose 블로그는 웹 사이트 중 "SEO"의 단어 빈도가 84로 가장 높으며, "진단"의 단어 빈도는 7, "SEO 진단"의 단어 빈도는 4입니다.
"SEO 진단"을 검색하면 약 1,530,000 페이지가 나옵니다. "SEO" 및 "진단"은 Baidu의 상한선인 약 100,000,000, N=10000억을 차지합니다. 따라서 3개 웹페이지에 대한 3개 키워드의 TF*IDF 값은 다음과 같이 계산됩니다.
1. 먼저 세 단어의 IDF 값을 계산합니다.
SEO: IDF= 로그(N / DF(t))= 로그(10000/1)=4
진단: IDF= log(N / DF(t))= log(10000/1)=4
SEO 진단: IDF= log(N / DF(t))= log(10000/0.015)= 7-log15≒6
2. 세 단어의 TF 값을 계산합니다.
세 스테이션에 대한 키워드 SEO의 TF 값:
창사: TF= log(TF(t,d))= log12≒1.1
답 5: TF= log(TF(t,d))= log41≒1.64
장미 냄새를 맡아보세요: TF= log(TF(t,d))= log84≒1.92
세 스테이션에 대한 키워드 진단의 TF 값:
창사: TF= log(TF(t,d))= log4≒0.63
답 5: TF= log(TF(t,d))= log46≒1.68
장미 냄새를 맡아보세요: TF= log(TF(t,d))= log7≒0.84
세 스테이션에 대한 키워드 SEO 진단의 TF 값:
창사: TF= log(TF(t,d))= log1=0
답 5: TF= log(TF(t,d))= log20≒1.45
장미 냄새를 맡아보세요: TF= log(TF(t,d))= log4≒0.63
3. 3개 웹사이트의 세 단어에 대한 TF*IDF 값은 다음과 같습니다.
위의 표를 보면 제 블로그 "SEO"의 TF*IDF 값이 가장 높고, A5 Webmaster Network의 "Diagnosis"와 "SEO Diagnosis"의 TF*IDF 값이 가장 높은 것을 알 수 있습니다.
TF*IDF 값으로 계산된 상관관계만 보면 'SEO 진단'이라는 단어의 순위가 가장 높고, A5 웹마스터 네트워크는 둘 사이에 순위가 나와야 합니다(당일 순위). 어제 이전에는 실제로 둘 사이였습니다) 창사역은 마지막에 있어야 하지만 실제 결과와는 어느 정도 격차가 있는 것 같습니다. 이는 웹사이트의 전체 가중치, 개별 웹페이지의 가중치 및 품질, 외부 링크, 사용자 상호 작용(예: 사용자 경험) 등 웹사이트 페이지 순위에 더 중요한 다른 요소가 있음을 보여줍니다.
또한 동일한 웹사이트의 TF*IDF 값을 비교하면 창사 스테이션과 내 Xiaoxiangqiangwei 블로그의 순위가 향상되어야 합니다. 키워드 "SEO" 순위에 대한 요구 사항은 "SEO" 순위가 결정적인 역할을 합니다. 그리고 A5 웹마스터 홈페이지의 'SEO 진단' 순위가 결정적인 역할을 하며, 'SEO'라는 키워드의 순위가 순위 변동에 미치는 영향이 적습니다. 예를 들면 어제 제 블로그 'SEO 진단'이 당시 10페이지에 3위를 기록했는데, 지금은 23페이지까지 떨어졌습니다. 10위로 떨어졌기 때문에 TF*IDF를 더 많이 사용합니다. 연구는 많은 키워드 순위 현상을 발견하고 타겟 SEO 최적화 전략을 수립하는 데 도움이 됩니다.
물론 이 계산은 이상적인 상태를 기반으로 하지만 일부 SEO 현상의 원인도 설명할 수 있습니다. TF*IDF 알고리즘의 기본 개념을 숙지하고 이를 웹사이트 최적화에 적용할 수 있다면, 웹사이트 순위에 "SEO"라는 단어가 미치는 영향을 줄임으로써 내 블로그와 같은 웹사이트를 확실히 더 잘 최적화할 수 있고, 웹페이지에서 "SEO 진단"이라는 키워드의 순위를 더 잘 제어할 수도 있습니다.
이 기사는 항저우 SEO( http://www.soxunseo.com ) 검색 네트워크의 편집자 Xu Ziyu가 게시했습니다. 재인쇄할 때 이 링크를 유지해 주시기 바랍니다.
(편집자 : Yang Yang) 작가 Xu Ziyu의 개인 공간