Алгоритм TF-IDF хорошо известен многим профессиональным SEO-специалистам. Это широко используемая технология взвешивания для поиска и исследования информации. Применительно к анализу веб-страниц он взвешивает соответствующие ключевые слова на веб-странице и анализирует множество веб-страниц. Приводятся веса соответствующих ключевых слов веб-страницы для конкретного ключевого слова в рейтинге, а в окончательном алгоритме сортировки дается научное обоснование.
Сначала взгляните на формулу TF*IDF: Значение TF*IDF = TF×IDF (TF, умноженное на IDF) = 1+log TF(t,d) ×IDF(t) = 1+log TF(t,d) × log (N/DF(t)). Почему нам следует анализировать эту формулу? Потому что чем больше значение TF-IDF веб-страницы, тем более релевантно текстовое содержимое и индексные слова на веб-странице, тем больший вес она может получить в поисковой системе, что может обеспечить. лучший рейтинг для последующих веб-страниц. Отличная поддержка.
Частота термина TF (Term Frequency) в TF*IDF указывает частоту появления термина в документе, тогда как частота обратного документа IDF (Inverse Document Frequency) указывает, что если количество документов, содержащих термин t, меньше, IDF будет больше. Это показывает, что запись t обладает хорошей способностью различать категории. IDF, выраженная формулой, может быть записана как: IDF(t) = log(N / DF(t)). DF(t) представляет количество документов, содержащих определенный поисковый запрос (представленный t), а N представляет общее количество веб-страниц в Интернете.
Эти концепции сложно полностью понять. Позвольте мне привести вам пример, чтобы вы могли их хорошо понять.
Использование TF-IDF для объяснения феномена ранжирования «SEO-диагностика»
Например, для рейтинга веб-страницы по ключевому слову «SEO-диагностика» мы проверили анализ частоты отображения слов, связанных с этим словом, на трех из десяти лучших веб-сайтов:
Второе место занимает SEO-диагностика A5. Частота слов «SEO» и «диагноз» составляет 41 и 46 соответственно, а частота слов «SEO-диагностика» — 20;
Третье место занимает веб-сайт компании из Чанши. Частота слов «SEO» и «диагноз» составляет 12 и 4 соответственно, а частота слов «SEO-диагноз» равна 1;
Блог My Smell the Rose занимает десятое место среди веб-сайтов, частота слова «SEO» самая высокая, достигая 84, частота слова «диагноз» — 7, а частота слова «SEO-диагноз» — 4.
Поиск по запросу «SEO-диагностика» показывает около 1 530 000 страниц. «SEO» и «диагноз» — это верхний предел Baidu, равный примерно 100 000 000, что соответствует N = 1 000 миллиардов. Таким образом, значения TF*IDF трех ключевых слов на трех веб-страницах рассчитываются следующим образом:
1. Сначала вычислите значения IDF трех слов:
SEO: IDF= log(N / DF(t))= log(10000/1)=4
Диагноз: IDF= log(N / DF(t))= log(10000/1)=4
SEO-диагностика: IDF= log(N / DF(t))= log(10000/0,015)= 7-log15≈6
2. Рассчитайте значение ТФ трех слов:
Значение TF ключевого слова SEO для трех станций:
Чанша: TF= log(TF(t,d))= log12≈1,1
A5: TF= log(TF(t,d))= log41≈1,64
Понюхайте розу: TF= log(TF(t,d))= log84≈1,92
Значение TF ключевого слова диагностики для трех станций:
Чанша: TF= log(TF(t,d))= log4≈0,63
A5: TF= log(TF(t,d))= log46≈1,68
Понюхайте розу: TF= log(TF(t,d))= log7≈0,84
Значение TF SEO-диагностики ключевого слова для трех станций:
Чанша: TF= log(TF(t,d))= log1=0
A5: TF= log(TF(t,d))= log20≈1,45
Понюхайте розу: TF= log(TF(t,d))= log4≈0,63
3. Значения TF*IDF трёх слов с трёх сайтов:
Из приведенной выше таблицы ясно видно, что «SEO» моего блога имеет самое высокое значение TF*IDF, а «Диагностика» и «SEO-диагноз» сети веб-мастеров A5 имеют самое высокое значение TF*IDF.
Если вы посмотрите исключительно на корреляцию, рассчитанную на основе значения TF*IDF, рейтинг слова «SEO-диагностика» является самым высоким, и сеть веб-мастеров A5 должна получить более высокий рейтинг. Мой блог должен занять место между ними (рейтинг дня). до вчерашнего дня действительно было между ними), станция Чанша должна быть в конце, но, похоже, существует определенный разрыв с фактическими результатами. Это показывает, что существуют и другие более важные факторы в рейтинге страниц веб-сайта, такие как общий вес веб-сайта, вес и качество отдельных веб-страниц, внешние ссылки и взаимодействие с пользователем (т. е. пользовательский опыт), которые нам необходимо учитывать.
Кроме того, сравнивая значение TF*IDF одного и того же веб-сайта, станция Чанша и мой блог Xiaoxiangqiangwei должны улучшить свой рейтинг. Требования к рейтингу ключевого слова «SEO» относительно высоки. Рейтинг «SEO» играет решающую роль. и A5. Рейтинг «SEO-диагностики» на веб-сайте веб-мастера играет решающую роль, а рейтинг ключевого слова «SEO» оказывает меньшее влияние на колебания его рейтинга. Для этого есть некоторые основания. Например, позавчера мой блог «SEO-диагностика» занимал третье место. Тогда ключевое слово «SEO» занимало 10-ю страницу. Сейчас оно опустилось на 23-ю страницу, и рейтинг снизился. упал на десятое место, поэтому я больше использую TF*IDF. Исследования могут помочь нам обнаружить многие явления ранжирования ключевых слов и сформулировать целевые стратегии SEO-оптимизации.
Конечно, этот расчет основан на идеальном состоянии, но он также может объяснить причины некоторых явлений SEO. Если мы сможем освоить основную идею алгоритма TF*IDF и затем применить ее для оптимизации веб-сайта, мы будем это делать. определенно сможете лучше оптимизировать веб-сайт, например «Мой блог», за счет уменьшения влияния слова «SEO» на рейтинг веб-сайта, а также сможете лучше контролировать рейтинг ключевого слова «SEO-диагностика» на веб-странице.
Эту статью опубликовал Сюй Цзию, редактор поисковой сети Hangzhou SEO ( http://www.soxunseo.com ). Приглашаем всех к перепечатке. Пожалуйста, сохраняйте эту ссылку при перепечатке. Спасибо за сотрудничество!
(Редактор: Ян Ян) Личное пространство автора Сюй Цзыюй