Дублированный контент: причины и решения

Автор：Eve Cole Время обновления：2010-12-16 17:49:00

У поисковых систем, таких как Google, есть проблема. Они называют это «дублирующим контентом». Ваш контент отображается на разных страницах сайта, и они не знают, по какому адресу его отображать. Этот дублированный контент особенно проблематичен, когда люди ссылаются на разные версии вашего контента. Цель этой статьи — помочь вам понять различные причины дублирования контента, а затем узнать, как исправить каждую из них.

Причины дублирования контента

1. Непонимание концепции URL

2. идентификаторы сеансов

3. Параметры отслеживания URL-адресов

4. Поиск контента и агрегирование контента

5. Порядок параметров

6. Пагинация комментариев

7. Распечатать страницу

8. www против нет www

Концептуальный обходной путь «канонического» тега

1. Выявление дублированного контента

2. Инструменты Google для веб-мастеров

3. Команда поиска для запроса заголовка

Практические шаги по устранению дублированного контента

1. Избегайте дублирования контента

2. 301 редирект

4. Используйте тег rel="canonical"

5. Ссылка на оригинальный контент

Резюме: с дублированным контентом можно и нужно бороться.

Вы можете думать о дублированном контенте так, как будто вы стоите на перекрестке и на дорожных знаках есть два разных направления, указывающих на один и тот же пункт назначения. Какой путь вам следует выбрать? Более того, ситуация становится еще хуже, если пункт назначения другой. Вам, как читателю, все равно, откуда берется контент, но поисковые системы должны выбрать один из них для отображения в результатах поиска, потому что они не хотят отображать один и тот же контент дважды.

Например, контент по ключевому слову -x/ , эта ситуация не вымышленная, такая проблема существует во многих системах cms. Например, ваша статья была собрана и опубликована некоторыми пользователями сети, некоторые люди ссылаются на ваш первый URL-адрес, а некоторые люди ссылаются на ваш второй URL-адрес. Вот здесь и возникает проблема дублирования контента. Если все ссылки по этому ключевому слову указывают на один URL-адрес, вероятность того, что ключевое слово окажется на главной странице, будет намного выше.

Причины дублирования контента

Существует множество факторов, которые могут привести к дублированию контента. По большей части это технический вопрос, нечасто кто-то решает разместить один и тот же контент в двух разных местах без ссылки на первоисточник, и большинству людей это покажется неудобным. Технические причины также очень веские. Большинство причин этого заключается в том, что программисты не смотрят с точки зрения браузеров или пользователей и не заботятся о пауках поисковых систем, а просто следуют мышлению программиста. Предположим, что упомянутая ранее статья появилась по адресу http://www.example.com/keyword-x/ и http://www.example.com/article-category/keyword-x/ ? Если вы спросите программиста, он скажет, что оно появляется только один раз.

Непонимание концепции URL

Так программисты сумасшедшие? Нет-нет, он просто снова заговорил на другом языке. Весь веб-сайт, который вы видите, вероятно, управляется базой данных. В этой базе данных есть только одна статья, и программа веб-сайта позволяет получать доступ к статье в базе данных через разные URL-адреса. Потому что в глазах программистов единственным признаком является то, что статьи в базе данных имеют уникальные идентификаторы, а не URL-адреса. Для поисковых систем URL — это уникальный идентификатор статьи. Если вы скажете это своему программисту, он поймет причину проблемы, а потом он, как и большинство программистов, с которыми я работаю, задастся вопросом, почему поисковые системы тупые и почему он не может решить эту проблему. Таким образом, он пришёл к ещё одному неправильному мышлению.

Идентификатор сеанса

Часто вам нужно отслеживать перемещения ваших посетителей, например, сохранять приобретенные ими товары в корзине покупок. Для этого необходимо провести им сеанс. Сеанс — это, по сути, краткая история действий посетителя на вашем сайте, которая может включать в себя такой контент, как товары в корзине покупок. Чтобы сеанс посетителя не переходил с одной веб-страницы на другую, его необходимо где-то сохранить. Наиболее распространенным решением являются файлы cookie, однако поисковые системы обычно не сохраняют файлы cookie.

В этот момент происходит то, что некоторые системы веб-сайтов используют для возврата идентификатор сеанса в URL-адресе. На этом этапе к внутренним ссылкам на каждом веб-сайте будет добавлен идентификатор сеанса, причем идентификатор сеанса будет уникальным, что создает новый URL-адрес и, следовательно, дублирует контент.

Использование параметров отслеживания и сортировки URL-адресов

Другой причиной дублирования контента является использование параметров URL-адреса, хотя параметры не меняют содержимое страницы, например, в ссылках отслеживания. Вы увидите , что http://www.example.com/keyword-x/ и http://www.example.com/keyword-x/?source=rss — это не одни и те же URL-адреса для поисковых систем. Последнее может позволить вам отслеживать источники, что может немного усложнить ваш рейтинг, что является очень плохим негативным эффектом.

Это относится не только к параметрам отслеживания, но и к каждому параметру, который вы добавляете после URL-адреса без изменения фактического контента на вашей странице. Использование параметров изменит порядок товаров на веб-странице или отобразит другую боковую панель, что приведет к дублированию контента.

Парсинг и агрегирование контента

Хотя в подавляющем большинстве случаев дублирование контента происходит по вашей вине или, по крайней мере, по вине вашего сайта, иногда это использование вашего контента другим сайтом без вашего согласия. Они не всегда ссылаются на ваш исходный контент, и поисковые системы не знают, что им придется обрабатывать другую версию той же статьи.

По мере того, как ваш сайт становится все более популярным, вы будете сталкиваться со все большим количеством сканирований, и ваши проблемы будут усугубляться.

Порядок параметров

Другая распространенная причина заключается в том, что CMS не использует краткие и понятные URL-адреса, а использует /? id=1&cat=2, здесь идентификатор указывает на статью, а кот указывает на категорию. В большинстве систем создания веб-сайтов этот URL-адрес /? cat=2&id=1 также будет отображать тот же контент, но для поисковых систем он будет совершенно другим.

Пагинация комментариев

Существует возможность разбивать комментарии на страницы в системе wordPRess или других программах. Это приведет к дублированию содержания статьи в URL самой статьи и URL+/comment-page-1/, /comment-page-2/ и т.д.

Распечатать страницу

Если ваша cms генерирует страницы для печати и ссылки со страниц ваших статей, в большинстве случаев Google найдет эти страницы, если вы специально не запретите это. Какую версию должен показывать Google? Страница с рекламой и окружающим контентом или страница только с вашими статьями.

WWW против не-WWW

Это старый вопрос, но иногда поисковые системы все еще путают WWW и не-WWW дублированный контент, когда обе версии доступны.

Необычная ситуация — дублирование контента по протоколу http или https.

Концептуальный обходной путь «канонического» тега

Как указано выше, дублирование контента, возникающее из-за разных URL-адресов одного и того же контента, является проблемой, но ее можно решить. Человек обычно может легко сказать вам, каким должен быть правильный URL-адрес статьи при публикации статьи. Самое смешное, что иногда вы спрашиваете трех человек из одной компании и получаете три разных ответа.

Резюме: с дублированным контентом можно и нужно бороться.

В этих случаях проблему необходимо решить, поскольку в конце может быть только один URL-адрес. Правильный URL-адрес статьи может быть назван поисковыми системами Canonical.

Выявление дублированного контента

Вы можете не знать, есть ли на вашем сайте дублированный контент. Позвольте мне дать вам несколько советов.

Инструменты Google для веб-мастеров

Инструменты Google для веб-мастеров — отличный инструмент для выявления дублированного контента. Если вы зайдете в Инструменты Google для веб-мастеров и просмотрите свой сайт, выберите «Диагностика» -> «Предложения HTML», вы увидите что-то вроде этого.

Если страница имеет повторяющийся заголовок или повторяющееся описание, там почти ничего хорошего не происходит. Нажав на нее, вы увидите, какие URL-адреса имеют повторяющиеся заголовки или описания, что поможет вам определить проблему. Проблема в том, что если у вас статья о «ключевом слове -X» отображается в двух категориях, их заголовки могут отличаться. Например, их заголовки будут такими: «Ключевое слово X – Категория X – Пример сайта» и «Ключевое слово X – Категория Y – Пример сайта». Google не будет рассматривать их как повторяющиеся заголовки, но вы можете найти их с помощью поиска.

Найти заголовок или другие фрагменты

Есть несколько поисковых операторов, которые очень помогают в этой ситуации. Если вы хотите найти все URL-адреса статей на вашем веб-сайте, содержащих ключевое слово «X», вы можете ввести следующую команду в поле поиска Google:

site:example.com intitle: «Ключевое слово X»

Скопировать код

Google покажет вам все страницы на example.com, содержащие это ключевое слово. Чем более конкретные ключевые слова вы ищете в разделе заголовка, тем легче будет найти повторяющийся контент и устранить его. Вы также можете использовать тот же метод для выявления дублированного контента на чужих веб-сайтах. Например, полное название вашей статьи — ключевое слово X. Почему это круто, вы можете поискать

intitle: «Ключевое слово X – почему это круто»

Скопировать код

Google вернет все веб-сайты, содержащие этот заголовок. Иногда вы также можете выполнить поиск по одному или двум предложениям в своей статье, поскольку некоторые парсеры контента могут изменить ваш заголовок. В некоторых случаях при поиске Google может отображать следующее приглашение в конце результатов:

Это признак того, что Google удалил повторяющиеся результаты данных. Это явно нехорошо. Вы можете продолжать нажимать на кнопку, чтобы просмотреть другие результаты и посмотреть, поможет ли это вам решить эти проблемы.

Практические шаги по устранению дублированного контента

Как только вы решите, какой URL-адрес следует канонизировать для вашей статьи, вам нужно начать процесс канонизации (хорошо, я знаю, что я многословен и говорил это несколько раз). По сути, это означает, что поисковые системы должны знать об этом и заставить их обнаружить эту каноническую версию как можно быстрее. Вот четыре способа решения этой проблемы:

1. Не создавайте дублированный контент

2. Перенаправляйте повторяющийся контент на канонические URL-адреса.

3. Добавьте ссылку на тег Canonical на дубликат страницы.

4. Добавьте гиперссылку на канонический URL-адрес на странице дублированного контента.

избегайте дублирования контента

Существует несколько простых способов исправить вышеуказанные причины дублирования контента.

1. Идентификатор сеанса в URL?

Обычно вы можете отменить его в настройках вашей системы.

2. Есть распечатанная страница.

Ничего из этого не требуется, вы можете использовать таблицу стилей печати.

3. Используйте пагинацию комментариев в WordPress

По этой проблеме можно ли в настройках отменить постраничную нумерацию комментариев?

4. Разные порядки параметров

Попросите своего программиста создать код для сортировки в том же порядке (обычно это относится к фабрике URL-адресов).

5. Проблемы с параметрами отслеживания

В большинстве случаев вы можете использовать хеш-значения # вместо параметров для отслеживания маркетинговых кампаний.

6. WWW и не-WWW проблемы

Выберите нужную версию и придерживайтесь перенаправления. Вы можете установить это в Инструментах Google для веб-мастеров.

Если вашу проблему не так-то просто решить, возможно, стоит приложить усилия, чтобы предотвратить прямое дублирование контента. Это лучшее решение на данный момент.

301 редирект дублированного контента

В некоторых случаях невозможно полностью предотвратить создание неверных URL-адресов содержимым системных статей, которые вы используете, но вы можете перенаправить их. Если для вас это не имеет смысла (и я понимаю), вы должны не забыть упомянуть об этом своим программистам. Кроме того, если вы решите проблему с дублирующимся контентом, обязательно перенаправьте все старые URL-адреса дублированного контента на соответствующие канонические URL-адреса.

Используйте rel="Канонический"

Иногда вы не хотите или не можете решить проблему дублирования статей, но вы должны знать, что это неправильный URL. Для этой конкретной проблемы поисковые системы также ввели это

Канонические элементы. Часть, где он размещен на вашем сайте, выглядит следующим образом:

Этот процесс будет медленнее, чем перенаправление 301, поэтому было бы предпочтительнее использовать 301 Google, упомянутый Джоном Мюллером http://www.seroundtable.com/google-canonical-tag-vs-301-redirect-12611.html.

Ссылка на исходную версию

Если вы не можете сделать вышеперечисленное, вы, вероятно, не можете контролировать раздел «голова» вашего сайта, где отображается контент, и также хорошей идеей будет добавить ссылку на исходную страницу вверху или внизу страница. Есть еще несколько статей, на которые вы хотите добавить ссылку в свой RSS-канал. Некоторые сканеры могут отфильтровывать эти ссылки, но некоторые могут оставаться там, и если Google посчитает несколько ссылок, указывающих на вашу статью, он также быстро узнает, что это точная каноническая версия статьи.

Резюме: с дублированным контентом можно и нужно бороться.

Дублированный контент встречается повсюду. Я еще не встречал веб-сайта с более чем 1000 страницами без единого дублированного контента. Это требует вашего постоянного внимания. Это решаемо, и вознаграждение может быть большим. Рейтинг вашей страницы с высококачественным контентом может резко возрасти после того, как вы устраните дублированный контент. Конечно, сначала вам нужно выявить эти проблемы, помочь вашим программистам найти решения проблем и даже помочь вам решить проблемы.

Автор перевода: zhipeng

Источник статьи: Форум Lightyear ( http://www.gnbase.com/thread-474-1.html ).

Оригинальный текст на английском языке: http://yoast.com/articles/duulate-content/.

Примечание. Статья перепечатана на главной странице веб-мастеров с разрешения zhipeng, Lightyear Forum. При необходимости перепечатки укажите источник и ссылку статьи.