Файлы роботов представляют собой «джентльменское соглашение» между веб-сайтом и программой-пауком: файлы роботов могут не только экономить ресурсы веб-сайта, но и помогать паукам более эффективно сканировать сеть, тем самым улучшая рейтинг.
1: Разрешить только бота Google
Если вы хотите заблокировать всех сканеров, кроме Googlebot:
Пользовательский агент:*
запретить:/
Uer-агент: разрешенное имя паука
Запретить:
2. Разница между «/folder/» и «/folder»
Например:
Пользовательский агент:*
Запретить:/папка/
Запретить:/папка
«Disallow:/folder/» означает, что каталог перехватывается. Все файлы в этом каталоге запрещены для сканирования, но сканирование файлаfolder.hlml разрешено.
«Disallow:/folder»: все файлы иfolder.html в /folder/не могут быть просканированы.
3: «*» соответствует любому символу
Пользовательский агент:*
Указывает на блокировку всех пауков. После того, как мы выполним псевдостатическую обработку, одновременно будут существовать динамические веб-страницы и статические веб-страницы. Содержимое веб-страниц абсолютно одинаковое и считается зеркальной страницей. Поэтому нам необходимо заблокировать динамическую сеть. страницы. Вы можете использовать знак *, чтобы заблокировать динамические веб-страницы.
Пользовательский агент:*
Запретить: /?*?/
4: $соответствующий URL-адрес заканчивается
Если вы хотите перехватывать URL-адреса, оканчивающиеся на определенную строку, вы можете использовать $. Например, если вы хотите перехватывать URL-адреса, заканчивающиеся на .asp:
Пользовательский агент:*
Запретить:/*.asp$
Вы также можете открыть относительно хорошие веб-сайты, чтобы посмотреть, как написаны их файлы robots, а затем внести соответствующие изменения в соответствии с вашими потребностями. Файлы robots могут позволить паукам тратить больше времени на сканируемый контент, поэтому необходима оптимизация файлов robots.
Эта статья принадлежит Дунъяну Гаофу: http://mygaofu.com . При перепечатке указывайте ссылку.
Главный редактор: Янъян Автор: Мне нравится оптимизировать личное пространство.