Internet es cada vez más popular y la popularidad de la WWW está en su apogeo. La publicación de información empresarial y la realización de comercio electrónico en Internet han evolucionado de una moda a otra. Como Web Master, es posible que conozcas bien HTML, Javascript, Java y ActiveX, pero ¿sabes qué es un Web Robot? ¿Sabes cuál es la relación entre Web Robot y la página de inicio que diseñas?
Vagabundos en Internet --- Web Robot
A veces, inexplicablemente, te encontrarás con que el contenido de tu página de inicio está indexado en un motor de búsqueda, aunque nunca hayas tenido contacto con él. De hecho, esto es exactamente lo que hace Web Robot. Los Web Robots son en realidad programas que pueden atravesar la estructura de hipertexto de una gran cantidad de URL de Internet y recuperar de forma recursiva todo el contenido de un sitio web. Estos programas a veces se denominan "arañas", "Web Wanderers", "web worms" o rastreadores web. Algunos sitios de motores de búsqueda (Search Engines) muy conocidos en Internet cuentan con programas Web Robot especializados para completar la recopilación de información, como Lycos, Webcrawler, Altavista, etc., así como sitios de motores de búsqueda chinos como Polaris, NetEase, GOYOYO, etc.
Web Robot es como un invitado no invitado, le importe o no, será leal a las responsabilidades de su maestro y trabajará duro e incansablemente en la World Wide Web. Por supuesto, también visitará su página de inicio y recuperará el contenido de la misma. página de inicio y generar el formato de registro que necesita. Tal vez le gustaría que algún contenido de su página de inicio fuera conocido en todo el mundo, pero hay algún contenido que no desea que se vea ni se indexe. ¿Puedes dejarlo "correr desenfrenadamente" en el espacio de tu página de inicio? ¿Puedes comandar y controlar el paradero de Web Robot? La respuesta es, por supuesto, sí. Mientras lea el resto de este artículo, puede ser como un policía de tránsito, colocando las señales de tránsito una por una, diciéndole a Web Robot cómo buscar en su página de inicio, cuáles se pueden buscar y cuáles no se puede acceder.
De hecho, Web Robot puede entender sus palabras.
No crea que Web Robot anda sin organización ni control. Muchos software de Web Robot proporcionan dos métodos para que los administradores de sitios web o productores de contenido web restrinjan la ubicación de los Web Robots:
1. Protocolo de exclusión de robots.
Los administradores de sitios de Internet pueden crear un archivo con formato especial en el sitio para indicar a qué parte del sitio se puede acceder. por robots Este archivo se coloca en el directorio raíz del sitio, es decir, http://.../robots.txt
2. Etiqueta META de Robots
El autor de una página web puede utilizar una etiqueta META HTML especial para indicar si una página web. La página se puede indexar, analizar o vincular.
Estos métodos son adecuados para la mayoría de los robots web. La implementación de estos métodos en el software depende del desarrollador del robot y no se garantiza que sean efectivos para ningún robot. Si necesita proteger su contenido con urgencia, debería considerar métodos de protección adicionales, como agregar contraseñas.
Uso del protocolo de exclusión de robots
Cuando Robot visita un sitio web, como http://www.sti.net.cn/ , primero verifica el archivo http://www.sti.net.cn/robots.txt. Si este archivo existe, se analizará según este formato de registro:
Usuario-agente: *
No permitir: /cgi-bin/
No permitir: /tmp/
No permitir: /~joe/
para determinar si debe recuperar los archivos del sitio. Estos registros son especialmente para que los vea Web Robot. Los espectadores comunes probablemente nunca verán este archivo, así que no agregue declaraciones HTML como o "¿Cómo estás?" y "¿De dónde eres?". otros saludos falsos.
Sólo puede haber un archivo "/robots.txt" en un sitio y cada letra del nombre del archivo debe estar en minúsculas. Cada línea separada "Disallow" en el formato de registro de Robot indica una URL a la que no desea que acceda Robot. Cada URL debe ocupar una línea separada y frases enfermizas como "Disallow: /cgi-bin/ /tmp/" no pueden aparecer. Al mismo tiempo, las líneas en blanco no pueden aparecer en un registro, porque las líneas en blanco son una señal de división de varios registros.
La línea Usuario-agente indica el nombre del Robot u otro agente. En la línea User-agent, '*' tiene un significado especial: todos los robots.
A continuación se muestran algunos ejemplos de robots.txts que
niegan todos los robots en todo el servidor:
Agente de usuario: *
No permitir: /
Permitir que todos los robots accedan a todo el sitio:
Agente de usuario: *
Rechazar:
O genere un archivo "/robots.txt" vacío.
Partes del servidor son accesibles para todos los robots.
Agente de usuario: *
No permitir: /cgi-bin/
No permitir: /tmp/
No permitir: /privado/
Rechazar un robot específico:
Agente de usuario: BadBot
No permitir: /
Solo permita que un robot visite:
Agente de usuario: WebCrawler
Rechazar:
Agente de usuario: *
No permitir: /
Finalmente damos el archivo robots.txt en el sitio http://www.w3.org/ :
# Para uso de search.w3.org
Agente de usuario: W3Crobot/1
Rechazar:
Agente de usuario: *
No permitir: /Miembro/ # Esto está restringido solo a miembros del W3C
Disallow: /member/ # Esto está restringido solo a miembros del W3C
Disallow: /team/ # Esto está restringido solo al equipo W3C
No permitir: /TandS/Member # Esto está restringido solo a miembros del W3C
No permitir: /TandS/Team # Esto está restringido solo al equipo W3C
No permitir: /Proyecto
No permitir: /Sistemas
No permitir: /Web
No permitir: /Equipo
Uso de la etiqueta META de Robots
La etiqueta META de Robots permite a los autores de páginas web HTML indicar si una página se puede indexar o si se puede usar para encontrar más archivos vinculados. Actualmente, sólo algunos robots implementan esta característica.
El formato de la etiqueta META de Robots es:
Al igual que otras etiquetas META, debe colocarse en el área HEAD del archivo HTML:
...
Las instrucciones de la etiqueta META de Robots están separadas por comas. Las instrucciones que se pueden utilizar incluyen [NO]INDEX y [NO] FOLLOW. La directiva INDEX indica si un robot indexador puede indexar esta página; la directiva FOLLOW indica si el robot puede seguir enlaces a esta página. El valor predeterminado es ÍNDICE y SEGUIR. Por ejemplo:
Un buen administrador de sitios web debe tener en cuenta la gestión de robots para que puedan servir su propia página de inicio sin comprometer la seguridad de sus propias páginas web.