Шито Ченг: Волшебные роботы становятся свидетелями взлета и падения веб-сайтов

Автор：Eve Cole Время обновления：2011-08-02 17:09:44

Я давно обещал написать статью для А Биня. Я благодарен ему за помощь, но не написал ее до сих пор. Несколько дней назад я увидел, как Чжо Шао задал вопрос о роботах, и собрал. это для всех. Давайте поговорим о некоторых ситуациях с роботами. Файл robots.txt размещается в корневом каталоге веб-сайта и является первым файлом, который поисковые системы просматривают при доступе к веб-сайту. Когда поисковый паук посещает сайт, он сначала проверяет, существует ли файл robots.txt в корневом каталоге сайта. Если он существует, поисковый робот определит область доступа на основе содержимого файла, если файл существует. не существует, все Поисковые роботы смогут получить доступ ко всем страницам веб-сайта, не защищенным паролем. На каждом веб-сайте должен быть робот, который сообщает поисковым системам, какие элементы на моем веб-сайте нельзя сканировать, а какие страницы можно сканировать и сканировать.

Несколько функций роботов:

1. Заблокируйте все поисковые системы от сканирования информации. Если ваш веб-сайт является только вашим личным веб-сайтом и вы не хотите, чтобы о нем узнало слишком много людей, вы можете использовать роботов, чтобы заблокировать все поисковые системы, например личный блог, который вы пишете. Вы можете заблокировать все поисковые системы

Пользовательский агент: *

Запретить: /

2. Если вы хотите, чтобы вашу информацию сканировала только определенная поисковая система, вы можете использовать robots для ее настройки. Например: я хочу, чтобы мой веб-сайт был включен в Baidu, но не в другие поисковые системы. Вы можете использовать robots для его настройки.

Пользовательский агент: Baiduspider

Позволять:

Пользовательский агент: *

Запретить: /

3. Вы можете использовать различные подстановочные знаки для соответствующей настройки веб-сайта. Например, если я не хочу, чтобы веб-сайт сканировал все мои изображения, я могу использовать $ для его настройки. Обычно нашими распространенными форматами изображений являются BMP, JPG, GIF, JPEG и другие форматы. Настройки на данный момент такие:

Пользовательский агент: *

Запретить: /.bmp$

Запретить: /.jpg$

Запретить: /.gif$

Запретить: /.jpeg$

4. Вы также можете использовать * для блокировки связанных URL-адресов. Если некоторые веб-сайты не позволяют поисковым системам сканировать динамические адреса, вы можете использовать этот подстановочный знак * для установки соответствующих параметров. В обычных обстоятельствах одной из характеристик динамических URL-адресов является наличие знака «?». В настоящее время мы можем использовать эту функцию для блокировки совпадений:

Пользовательский агент: *

Запретить: /*?*

5. Если веб-сайт был изменен и вся папка исчезла, в этом случае вам следует рассмотреть возможность блокировки всей папки. Мы можем использовать robots, чтобы заблокировать всю папку. Например, папка ab на сайте была удалена из-за доработки. В этом случае ее можно настроить так:

Пользовательский агент: *

Запретить: /ab/

6. Если на сайте есть папка, которую вы не хотите включать, но в этой папке есть информация, которую разрешено включать. Затем вы можете использовать разрешение роботов для его установки. Например, папка ab на моем веб-сайте не может сканироваться поисковыми системами, но в папке ab есть информационный компакт-диск, сканирование которого разрешено. В настоящее время вы можете использовать robots, чтобы установить его:

Пользовательский агент: *

Запретить: /ab/

Разрешить: /ab/cd

7. Местоположение карты сайта можно определить в robots, что полезно для включения сайта.

sitemap:<местоположение карты сайта>

8. Иногда вы обнаружите, что на моем веб-сайте установлены роботы, но вы также обнаружите, что он включает этот URL-адрес. Причина этого в том, что паук этой поисковой системы сканирует веб-страницу через URL-адрес. Подобные URL-адреса. Здесь нет заголовка и описания, но когда Baidu сканирует этот URL-адрес, он отображает заголовок и описание, поэтому многие люди скажут, что я настроил роботов, но это не имеет никакого эффекта. Реальная ситуация такова, что ссылка сканируется, но содержимое страницы не включается.

Домашняя страница сайта имеет наибольший вес, а вес передается по ссылкам. Мы настраиваем роботов, чтобы лучше переносить вес на те страницы, которые должны иметь большой вес, а некоторые страницы не нужно сканировать и сканировать поиском. двигатели.

Ответственный редактор: Чэнь Лун Автор︶ Личное пространство Шито Пэна