Как поисковые системы определяют, является ли содержание статьи на странице оригинальным?

Автор：Eve Cole Время обновления：2011-06-29 16:44:06

В настоящее время я управляю неосновным веб-сайтом. Сначала включение было в порядке, но вскоре его заблокировали. В Baidu включено только несколько десятков сайтов с десятками тысяч данных. Я, конечно, тоже знаю, что собирать все время - это не вариант, но при ограниченности сил добавлять их по одному невозможно, да и нереально. Вот я и хотел поискать, как поисковые системы определяют оригинальность или нет, но, к сожалению, по этому аспекту мало контента. Тогда я задумался об этом с точки зрения поисковика и не мог не покрыться холодным потом, потому что слишком легко было определить, оригинальное оно или нет. Я проанализирую это в порядке своего мышления для справки.

Позвольте мне использовать эту статью в качестве примера для объяснения. Название: Nanhao Beijing Technology Co., Ltd. является профессиональным производителем курсорных считывателей. Содержание: Считыватель курсоров, разработанный Nanhao Technology, обеспечивает быстрое считывание карт, отличное качество и хороший сервис. Адрес нашей компании находится в XXXX, Пекин. Пауки попали на наш сайт через текст гиперссылки, а на эту страницу статьи — через внутренние ссылки. Начинается анализ суждений поисковых систем.

1. Анализ заголовка. Многие веб-страницы теперь имеют очевидные следы оптимизации и содержат много слов с длинным хвостом, но эти слова с длинным хвостом сзади должны просто сообщать движку, о чем страница, потому что в этом случае движок подумает, что там слишком много слов. Многие Повторяют, очевидно, что это неправильный подход. На самом деле должна быть функция перехвата, например, в качестве содержимого анализа перехватываются только первые 40 символов. Наконец, предполагается, что движок перехватывает следующее: Nanhao Beijing Technology Co., Ltd. является профессиональным устройством чтения курсоров.

Первое, что нужно сделать, это оценить, уникально ли это название. Как судить, есть способ. Мы все знаем, что классификация движков основана на записях слов, так как же нам получить эти записи? Просто: связанные записи поисковых запросов. Как показано ниже:

Система будет анализировать и сопоставлять перехваченные заголовки один за другим в своей базе данных в соответствии с соответствующими условиями поиска. Например, возьмите слово «читатель курсора» из заголовка, а затем сопоставьте его с соответствующими поисковыми запросами. Если этот заголовок уже существует в базе данных, будет считаться, что этот заголовок не уникален, и содержание статьи должно быть уникальным. совпало. Если программа чтения курсора слов совпадает, Nanhao Beijing будет перехвачен снова и так далее, и сопоставление будет выполняться... до тех пор, пока не будут проанализированы все ключевые слова, которые, по мнению движка, содержатся в заголовке.

Есть два окончательных результата сопоставления заголовка: во-первых, в базе данных заголовков в настоящее время нет этого контента, и этот контент необходимо изучить. Во-вторых, этот контент уже существует в базе данных названий и требует изучения.

2. Контент-анализ. Основная идея должна быть аналогична анализу заголовка, но есть и отличия. Ведь информация, содержащаяся в контенте, сложнее, чем заголовок. Она более разнообразна и требует более сложных алгоритмов.

Как упоминалось ранее, наш контент таков: устройство чтения курсоров, разработанное Nanhao Technology, обеспечивает быстрое считывание карт, отличное качество и хороший сервис. Адрес нашей компании находится в XXXX, Пекин. Поскольку содержание статей, как правило, очень длинное, невозможно анализировать ключевые слова. Ему приходится анализировать и сопоставлять предложение или абзац. Однако этот диапазон соответствия все равно необходимо проанализировать и сопоставить в базе данных статей с соответствующими поисковыми запросами в заголовке.

Сначала давайте поговорим о его методе анализа в целом: случайным образом перехватывать случайные длинные поля, а затем анализировать содержимое до и после этого поля, если текущая страница и база данных контента движка имеют одинаковые поля, а передний и задний абзацы также являются. то же будет считаться, что в данной статье имеется плагиат, подозрение в неоригинальности. Этот процесс анализа обычно необходимо повторить несколько раз. Если вы проанализируете его 10 раз, то 9 раз в существующей базе данных контента будет один и тот же контент до и после перехваченного поля, плюс заголовок в этом случае будет одинаковым. статья будет признана неоригинальной.

Давайте смоделируем это ниже.

Движок впервые перехватил фразу «Считыватель курсоров быстро считывает карты», а затем попал в базу данных статей по соответствующим поисковым запросам. Перед существующим полем базы данных стояло «Технологические исследования и разработки», а после него — «Отличное качество». «. Удалите эти два поля, которые соответствуют нашей текущей странице. Если есть одинаковый контент, он записывается как 0, если аналогичный контент отсутствует, он записывается как 1; Один матч завершен.

Затем перехватите «адрес компании», выполните операцию и снова получите результат 0 или 1 и так далее. До тех пор, пока не будет выполнено количество циклов согласования, заданное двигателем. Если вы встретите совпадение 10 раз и обнаружите один и тот же контент 7, 8 или 10 раз, то ваша статья будет считаться неоригинальной...

Далее, если будет определено, что это оригинальная статья, то движок выполнит операцию +1 к доменному имени в своей базе данных веса доменных имен. Очевидно, что по мере того, как будет опубликовано все больше и больше оригинальных статей, вес будет выше. и выше, и рейтинг будет выше. Он становится все лучше и лучше. Такие как А5, КитайZ.

Я хочу сопоставить ключевые слова между заголовком и содержанием. Пока есть достаточно совпадений и смело расширяйте диапазон соответствия соответствующей базы данных, я могу сказать, является ли статья оригинальной или нет. Фактически, сегодняшние процессоры становятся быстрее и дешевле. Кроме того, все инженеры поисковых систем имеют высшее образование, алгоритмы усовершенствованы и накоплен опыт. Поисковые системы определяют, оригинальна статья или нет, так же легко, как нарезать капусту.

Ничего страшного, если я об этом не думаю, но я реально в шоке, когда думаю об этом, прихожу к выводу, что станция сбора должна умереть! Давайте посмотрим, и если будет время, поделюсь, как писать псевдооригинальные статьи, которые невозможно проанализировать движками.

Вышеуказанное — всего лишь мой простой анализ. В конце концов, реальный алгоритм намного сложнее. Это только для справки! Еще одно объявление: http://www.nanhaokeji.com . Мой веб-сайт ищет дружественные ссылки. Предпочтительно PR только что был обновлен. 1, QQ: 419844484. При добавлении друзей указывайте ссылку на друга.

Ответственный редактор: Чэнь Лун, личное пространство автора senseseas