Интернет становится все круче и круче, а популярность WWW находится на пике. Публикация информации компаний и ведение электронной коммерции в Интернете превратились из моды в моду. Как веб-мастер, вы, возможно, хорошо знаете HTML, Javascript, Java и ActiveX, но знаете ли вы, что такое веб-робот? Знаете ли вы, какова связь между веб-роботом и домашней страницей, которую вы создаете?
Странники в Интернете --- Веб-робот
Иногда вы необъяснимым образом обнаруживаете, что содержимое вашей домашней страницы индексируется поисковой системой, даже если вы никогда не имели с ними никакого контакта. Фактически, это именно то, что делает Web Robot. Веб-роботы на самом деле представляют собой программы, которые могут проходить через гипертекстовую структуру большого количества URL-адресов Интернета и рекурсивно получать все содержимое веб-сайта. Эти программы иногда называют «пауками», «веб-странниками», «веб-червями» или веб-сканерами. Некоторые известные сайты поисковых систем (поисковые системы) в Интернете имеют специализированные программы веб-роботов для сбора информации, такие как Lycos, Webcrawler, Altavista и т. д., а также сайты китайских поисковых систем, такие как Polaris, NetEase, GOYOYO, и т. д.
Веб-робот подобен незваному гостю, независимо от того, заботитесь ли вы об этом или нет, он будет предан своим хозяйским обязанностям, усердно и неустанно работая во Всемирной паутине. Конечно, он также посетит вашу домашнюю страницу и получит содержимое. домашнюю страницу и создайте необходимый формат записи. Возможно, вы хотели бы, чтобы какой-то контент домашней страницы был известен всему миру, но какой-то контент вы не хотите, чтобы его видели или индексировали. Можете ли вы просто позволить ему «безудержно разгуляться» на вашей домашней странице? Можете ли вы управлять и контролировать местонахождение веб-робота? Ответ, конечно, да. Пока вы читаете остальную часть этой статьи, вы можете походить на дорожного полицейского, раскладывая дорожные знаки один за другим и рассказывая веб-роботу, как искать на вашей домашней странице, какие из них можно искать, а к каким нет доступа.
На самом деле, веб-робот может понять ваши слова.
Не думайте, что веб-робот работает без организации и контроля. Многие программы веб-роботов предоставляют администраторам веб-сайтов или производителям веб-контента два метода ограничения местонахождения веб-роботов:
1. Протокол исключения роботов.
Администраторы интернет-сайтов могут создать на сайте специально отформатированный файл, чтобы указать, к какой части сайта можно получить доступ. от robots. Этот файл размещается в корневом каталоге сайта, например http://.../robots.txt
2. МЕТА-тег Robots
Автор веб-страницы может использовать специальный HTML-тег. страницу можно проиндексировать, проанализировать или связать с ней.
Эти методы подходят для большинства веб-роботов. Внедрение этих методов в программное обеспечение зависит от разработчика робота, и их эффективность для любого робота не гарантируется. Если вам срочно необходимо защитить свой контент, вам следует рассмотреть дополнительные методы защиты, такие как добавление паролей.
Использование протокола исключения роботов
Когда робот посещает веб-сайт, например http://www.sti.net.cn/ , он сначала проверяет файл http://www.sti.net.cn/robots.txt. Если этот файл существует, он будет проанализирован в соответствии со следующим форматом записи:
Пользовательский агент: *
Запретить: /cgi-bin/
Запретить: /tmp/
Запретить: /~Джо/
чтобы определить, следует ли получать файлы сайта. Эти записи предназначены специально для просмотра веб-роботами. Обычные зрители, вероятно, никогда не увидят этот файл, поэтому не добавляйте в него HTML-запросы типа <img src=*> или «Откуда вы?». другие ложные приветствия.
На сайте может быть только один файл «/robots.txt», и каждая буква имени файла должна быть строчной. Каждая отдельная строка «Запретить» в формате записи робота указывает URL-адрес, к которому вы не хотите, чтобы робот имел доступ. Каждый URL-адрес должен занимать отдельную строку, и недопустимые предложения, такие как «Запретить: /cgi-bin/ /tmp/», не могут отображаться. При этом в записи не могут появляться пустые строки, поскольку пустые строки являются признаком разделения нескольких записей.
В строке User-agent указывается имя робота или другого агента. В строке User-agent «*» имеет особое значение — все роботы.
Вот несколько примеров robot.txts, которые
запрещают работу всех роботов на всем сервере:
Пользовательский агент: *
Запретить: /
Разрешить всем роботам доступ ко всему сайту:
Пользовательский агент: *
Запретить:
Или создайте пустой файл «/robots.txt».
Части сервера доступны всем роботам.
Пользовательский агент: *
Запретить: /cgi-bin/
Запретить: /tmp/
Запретить: /private/
Отклонить конкретного робота:
Пользовательский агент: BadBot
Запретить: /
Разрешить посещение только одному роботу:
Пользовательский агент: WebCrawler
Запретить:
Пользовательский агент: *
Запретить: /
Наконец, мы даем файл robots.txt на сайте http://www.w3.org/ :
# Для использования search.w3.org
Пользовательский агент: W3Crobot/1
Запретить:
Пользовательский агент: *
Disallow: /Member/ # Это доступно только членам W3C.
Disallow: /member/ # Это доступно только членам W3C.
Disallow: /team/ # Это доступно только команде W3C.
Disallow: /TandS/Member # Это доступно только членам W3C.
Disallow: /TandS/Team # Это доступно только команде W3C.
Запретить: /Проект
Запретить: /Системы
Запретить: /Web
Запретить: /Команда
Использование тега Robots META
Тег Robots META позволяет авторам веб-страниц HTML указать, может ли страница быть проиндексирована или ее можно использовать для поиска дополнительных связанных файлов. В настоящее время эту функцию реализуют лишь некоторые роботы.
Формат мета-тега роботов:
<META NAME="РОБОТЫ" CONTENT="NOINDEX, NOFOLLOW">
Как и другие МЕТА-теги, его следует размещать в области HEAD HTML-файла:
<html>
<голова>
<meta name="robots" content="noindex,nofollow">
<meta name="description" content="Эта страница....">
<title>...</title>
</голова>
<тело>
...
Инструкции мета-тега роботов разделяются запятыми. Можно использовать следующие инструкции: [NO]INDEX и [NO] FOLLOW. Директива INDEX указывает, может ли робот-индексатор индексировать эту страницу; директива FOLLOW указывает, может ли робот переходить по ссылкам на эту страницу; По умолчанию — ИНДЕКС и СЛЕДУЮЩИЙ. Например:
<meta name="robots" content="index,follow">
<meta name="robots" content="noindex,follow">
<meta name="robots" content="index,nofollow">
<meta name="robots" content="noindex,nofollow">
Хороший администратор веб-сайта должен учитывать управление роботами, чтобы роботы могли обслуживать свою домашнюю страницу, не ставя под угрозу безопасность своих собственных веб-страниц.