Последнее открытие заключается в том, что Baidu Spider — дурак! Недавно я обнаружил, что Baidu включает веб-сайт очень медленно, через несколько дней я делаю новый снимок главной страницы, а другие страницы практически не включаются. удручающе! Откройте журнал IIS на веб-сайте и проверьте его. Я скачал Baidu Spider и был потрясен. Я сделал важное открытие: Baidu Spider действительно дурак!
1. Давайте сначала посмотрим, почему Baidu Spider настолько глуп. Ниже приводится запись активности Baidu Spider на моем веб-сайте.
1. 2009-06-03 21:26:05 W3SVC962713505 218.60.130.19 GET /robots.txt - 80 - 123.125.64.15 Baiduspider+(+http://www.baidu.com/search/spider.htm) 404 0 64 ( Примечание. 404 означает, что файл robots.txt не найден.)
2. 2009-06-03 21:26:49 W3SVC962713505 218.60.130.19 GET /index.asp - 80 - 123.125.64.15 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 64 ( Примечание. 200 означает, что найден файл домашней страницы index.asp.)
Из этого видно, что действия паука Baidu сначала переходят на веб-сайт, чтобы найти файл robots.txt. Если он не существует, найдите домашнюю страницу index.asp веб-сайта, сравнив ее с домашней страницей, включенной в настоящее время в Baidu. , обнаруживается, что изменений по сравнению с исходным нет, и затем уходит. Как и большинство веб-мастеров, кто не хочет время от времени обновлять снимки страниц, включенных в Baidu? Кажется, единственный способ завершить robots.txt — заставить пауков Baidu бегать по моему сайту?
2. Напишите robots.txt и просмотрите свой сайт с помощью Baidu.
robots.txt Этот файл необходимо записать. Вы все конкретно умеете писать? Если нет, то повторю еще раз.
Пример 1. Запретить всем поисковым системам доступ к любой части сайта.
Пользовательский агент: *
Запретить: /
Пример 2. Разрешить доступ всем роботам
(Или вы также можете создать пустой файл «/robots.txt»)
Пользовательский агент: *
Запретить:
или
Пользовательский агент: *
Позволять: /
(Примечание из таблицы: Это необходимо. Не создавайте пустой файл. Это курение Baidu. Лучше всего написать следующее предложение.)
Пример 3. Запретите только Baiduspider доступ к вашему сайту
Пользовательский агент: Baiduspider
Запретить: /
Пример 4. Разрешите доступ к вашему веб-сайту только Baiduspider.
Пользовательский агент: Baiduspider
Запретить:
Пользовательский агент: *
Запретить: /
Пример 5. Запретить паукам доступ к определенным каталогам
В этом примере на сайте есть три каталога, которые ограничивают доступ поисковых систем, то есть робот не будет иметь доступ к этим трем каталогам. Следует отметить, что каждый каталог должен быть объявлен отдельно и не может быть записан как «Disallow: /cgi-bin//tmp/».
Пользовательский агент: *
Запретить: /cgi-bin/
Запретить: /tmp/
Запретить: /~Джо/
Пример 6. Разрешить доступ к некоторым URL-адресам в определенном каталоге
Пользовательский агент: *
Разрешить: /cgi-bin/see
Разрешить: /tmp/привет
Разрешить: /~joe/look
Запретить: /cgi-bin/
Запретить: /tmp/
Запретить: /~Джо/
Пример 7. Используйте «*», чтобы ограничить доступ к URL-адресам.
Доступ ко всем URL-адресам с суффиксом «.htm» (включая подкаталоги) в каталоге /cgi-bin/ запрещен.
Пользовательский агент: *
Запретить: /cgi-bin/*.htm
Пример 8. Используйте «$», чтобы ограничить доступ к URL-адресам.
Доступ разрешен только к URL-адресам с суффиксом «.htm».
Пользовательский агент: *
Разрешить: .htm$
Запретить: /
Пример 9. Отключить доступ ко всем динамическим страницам сайта
Пользовательский агент: *
Запретить: /*?*
Пример 10. Запретить Baiduspider сканировать все изображения на сайте
Разрешено сканировать только веб-страницы, изображения нельзя сканировать.
Пользовательский агент: Baiduspider
Запретить: .jpg$
Запретить: .jpeg$
Запретить: .gif$
Запретить: .png$
Запретить: .bmp$
Пример 11. Разрешить Baiduspider сканировать только веб-страницы и изображения в формате .gif.
Разрешено сохранять веб-страницы и изображения в формате gif, но нельзя сохранять изображения в других форматах.
Пользовательский агент: Baiduspider
Разрешить: .gif$
Запретить: .jpg$
Запретить: .jpeg$
Запретить: .png$
Запретить: .bmp$
Пример 12. Запретить Baiduspider только захват изображений в формате .jpg.
Пользовательский агент: Baiduspider
Запретить: .jpg$
Для справки взгляните на файл robots.txt, написанный самой таблицей.
Скопировать код
Пользовательский агент: *
Запретить: /admin/
Запретить: /Soft/
Разрешить: /изображения/
Разрешить: /html/
Разрешить: .htm$
Разрешить: .php$
Разрешить: .asp$
Разрешить: .gif$
Разрешить: .jpg$
Разрешить: .jpeg$
Разрешить: .png$
Разрешить: .bmp$
Позволять: /
объяснять:
1. Разрешить индексацию различными поисковыми системами.
2. Отключите индексацию каталога /admin. Это серверная часть сайта. Конечно, это запрещено.
3. Отключите важные каталоги безопасности, такие как /soft.
4. Разрешите доступ к каталогу /images.
5. Разрешите доступ к каталогу /html.
6. Разрешить доступ ко всем файлам htm, php, asp, html.
7. Позволяет захватывать изображения в форматах gif, jpg, jpeg, png, bmp.
8. Позволяет сканировать файлы в корневом каталоге сайта.
Хорошо, загрузите файл robots.txt на веб-сайт и в каталог и подождите, пока Baidu Spider появится снова. Когда придет время, этот хороший гид отвезет этого идиота на вашу станцию и прогуляется. Автор этой статьи собран и опубликован оптовой сетью внешней торговли одеждой MOFHOT www.mofhot.com. Пожалуйста, оставьте ссылку в формате A5. Спасибо ~ Опубликовать статью непросто.