Как вы знаете, вы не всегда можете полагаться на то, что движки-пауки будут работать эффективно при доступе к вашему сайту или его индексировании. Полностью полагаясь на свои собственные порты, пауки будут генерировать много дублированного контента, рассматривать важные страницы как мусор, индексировать записи ссылок, которые не должны показываться пользователям, и возникать другие проблемы. Существуют некоторые инструменты, которые позволяют нам полностью контролировать действия пауков на веб-сайте, например мета-теги robots, robots.txt, канонические теги и т. д.
Сегодня я расскажу об ограничениях использования технологии управления роботами. Чтобы предотвратить сканирование определенной страницы пауками, веб-мастера иногда используют несколько технологий управления роботами, чтобы запретить поисковым системам доступ к определенной веб-странице. К сожалению, эти методы иногда могут конфликтовать друг с другом: с другой стороны, такие ограничения могут скрывать определенные неработающие ссылки.
Итак, что происходит, когда доступ к файлу robots страницы заблокирован или используется с тегами noindex и каноническими тегами?
Быстрый обзор
Прежде чем мы углубимся в эту тему, давайте взглянем на некоторые ограничивающие методы основных роботов:
Теги метабота
Мета-тег Robots устанавливает описания рейтинга страниц для роботов поисковых систем. Мета-тег робота следует размещать в заголовке HTML-файла.
канонический тег
Канонический тег — это метатег уровня страницы, расположенный в заголовке HTML веб-страницы. Он сообщает поисковым системам, какие URL-адреса отображаются правильно. Его цель — не дать поисковым системам сканировать дублированный контент и в то же время сконцентрировать вес дублирующихся страниц на стандартизированной странице.
Код такой:
<link rel="canonical" href=" http://example.com/quality-wrenches.htm"/ >
X-роботы Теги
С 2007 года Google и другие поисковые системы поддерживают X-Robots-Tag как способ указать паукам на приоритетность сканирования и индексирования файлов для использования. Этот тег полезен для управления индексированием файлов, отличных от HTML, например файлов PDF.
тег робота
robots.txt позволяет некоторым поисковым системам посещать веб-сайт, но не гарантирует, что конкретная страница будет просканирована и проиндексирована. Если только это не связано с SEO, файл robots.txt действительно стоит использовать только в том случае, если это действительно необходимо или если на сайте есть роботы, которых необходимо заблокировать. Вместо этого я всегда рекомендую использовать тег метаданных «noindex».
избегать конфликта
Неразумно использовать два метода для ограничения входа робота одновременно:
· Мета-роботы «noindex»
· Канонический тег (при указании на другой URL-адрес)
· Robots.txt Запретить
· X-Robots-Tag (тег робота x)
Как бы вы ни хотели сохранить свою страницу в результатах поиска, один подход всегда лучше, чем два. Давайте посмотрим, что происходит, когда в одном URL-адресе используется множество методов управления путями роботов.
Мета-роботы «noindex» и теги Canonical
Если ваша цель — передать полномочия одного URL-адреса другому URL-адресу и у вас нет другого лучшего способа, то вы можете использовать только тег Canonical. Не попадайте в неприятности с «noindex» мета-тегов роботов. Если вы используете метод двух роботов, поисковые системы могут вообще не увидеть ваш тег Canonical. Эффект переноса веса будет проигнорирован, поскольку тег noindex робота не позволит ему увидеть тег Canonical!
Мета-роботы «noindex» и тег X-Robots «noindex»
Эти метки являются излишними. Когда эти два тега размещаются на одной странице, я вижу только негативное влияние на SEO. Если вы можете изменить файл заголовка в метаботе «noindex», вам не следует использовать тег xbot.
Robots.txt Disallow и мета-роботы «noindex»
Вот наиболее распространенные конфликты, которые я видел:
Причина, по которой я предпочитаю «noindex» от Meta Robots, заключается в том, что он эффективно предотвращает индексацию страницы, в то же время передавая вес более глубоким страницам, которые связаны с этой страницей. Это беспроигрышный подход. Файлу robots.txt не разрешено полностью ограничивать поисковым системам просмотр информации на странице (и ценных внутренних ссылок на ней), и, в частности, он не может ограничивать индексацию URL-адреса. В чем преимущества? Когда-то я писал отдельную статью на эту тему.
Если используются оба тега, robots.txt гарантированно сделает Meta Robots 'noindex' невидимым для пауков. На вас повлияет запрет в файле robots.txt, и вы упустите все преимущества «noindex» Meta Robots.
Источник статьи: www.leadseo.cn Shanghai Leadseo, эксперт по оптимизации веб-сайтов. Пожалуйста, сохраните источник при перепечатке. Большое спасибо!
Ответственный редактор: Чэнь Лун Личное пространство автора Frank12