Файл Robots.txt представляет собой простой текст в формате TXT, но все специалисты по поисковой оптимизации, занимающиеся созданием и оптимизацией веб-сайтов, знают о его важности. Его существование может блокировать страницы, которые вы не хотите сканировать поисковыми системами, или оно может быть похоже на картинку. Карта также указывает путь паукам. Когда паук заходит на сайт, он в первую очередь проверяет, существует ли файл Robots.txt, а затем выполняет доступ к индексу в соответствии с рекомендациями, указанными в содержимом. Если файл не существует, он обращается к нему последовательно в соответствии с правилами. ссылки на странице. Таким образом, мы можем использовать его, чтобы заблокировать некоторые каталоги, которые не нуждаются в индексации поисковыми системами, или описать карту сайта в Robots.txt, чтобы направлять пауков на сканирование. Это очень эффективно для безопасности веб-сайта или экономии пропускной способности сервера и управления индексацией. Можно сказать, что достигнут эффект продвижения собственных сильных сторон и избежания собственных слабостей. Давайте проведем подробный анализ ниже:
1. Используйте Robots.txt для экономии пропускной способности сервера.
Вообще говоря, веб-мастера редко делают такую настройку. Однако, когда на сервере большое количество посещений и слишком много контента, необходимо сделать настройку для экономии пропускной способности сервера, например блокировку таких папок, как:image, которая есть. полезен для индексации поисковыми системами. Он не имеет практического значения и тратит много трафика. Для веб-сайта с изображениями потребление еще более ошеломляет, поэтому использование Robots.txt может полностью решить эту проблему.
2. Защитите каталог безопасности веб-сайта.
Вообще говоря, при настройке файла Robots.txt необходимо указать каталог управления, базу данных и каталог резервного копирования, чтобы предотвратить сканирование веб-сайта «пауками». В противном случае может легко произойти утечка данных, которая повлияет на безопасность веб-сайта. Конечно, есть и другие каталоги, которые администратор не хочет индексировать пауками, которые также можно настроить, чтобы поисковые системы могли строго соблюдать это правило индексации.
3. Запретить поисковым системам индексировать страницу
На веб-сайте всегда есть страницы, которые мы не хотим видеть публике. В настоящее время мы можем использовать Robots.txt, чтобы запретить их индексацию пауками. Например, несколько дней назад мой Интернет. Скорость была низкой, и я обновил статью, что привело к непрерывной и повторной публикации. Я выполнял поиск 3 раза, и все результаты были проиндексированы поисковыми системами. Что мне делать? Дублированный контент определенно вреден для оптимизации веб-сайта. В настоящее время вы можете настроить Robots.txt для блокировки повторяющихся страниц.
4. Карта сайта со ссылкой на Robots.txt
Поскольку первое, на что паук смотрит при посещении веб-сайта, — это файл Robots.txt, в него мы можем установить карту сайта, что поможет паукам индексировать самую свежую информацию и избежать множества ненужных ошибок. Например, отображается страница карты профессиональной компании по созданию веб-сайтов Pilot Technology: http://www.****.net.cn/ sitemap.xml. Добавление ее в Robots.txt еще больше способствует индексации поисковыми системами. . Вам не придется каждый день заходить в поисковые системы, чтобы отправить файлы карт, не правда ли, очень удобно?
5. Методы письма и меры предосторожности
Стиль написания файла Robots.txt должен быть стандартизирован. Многие люди пишут небрежно. Прежде всего: User-agent:* должно быть написано, * значит для всех поисковых систем. Disallow: (каталог файла) не включает скобки, что означает, что индексирование поисковыми системами запрещено. Вот пример:
Пример 1:
Пользовательский агент:*
Запретить:/
Указывает, что любой доступ к индексу поисковой системы запрещен.
Пример 2:
Пользовательский агент:*
Запретить:/seebk
Указывает, что индексам поисковых систем запрещен доступ к каталогуseebk.
Пример 3:
Пользовательский агент:baiduspider
Пользовательский агент:*
Запретить:/
Указывает, что разрешен доступ только к составному индексу Baidu Spider: Baidu: baiduspider, Google: googlebot, Soso: sosospider, Alexa: ia_archiver, Yahoo: Yahoo Slurp
Пример 4:
Пользовательский агент:*
Запретить: .jpg$
Чтобы предотвратить хотлинкинг изображений jpg, вам не нужно устанавливать его, если у вас достаточная пропускная способность.
Постскриптум: Оптимизируйте Robots.txt, чтобы максимально использовать свои сильные стороны и избежать слабых. Хорошая работа с Robots.txt облегчит оптимизацию и бесперебойное развитие веб-сайта. Первоначально эта статья была написана www.joyweb.net.cn !
Личное пространство автора бинарной сети