Los webmasters no deben ignorar el uso de robots

Autor：Eve Cole Fecha de actualización：2012-02-25 15:17:34

Siempre he enfatizado la optimización de los detalles antes. Sí, los requisitos actuales de Baidu para los sitios web son ver si sus detalles están bien hechos. Los códigos, etiquetas, etc. son detalles, por lo que los robots también son parte de los detalles del sitio web. bueno para nosotros. El sitio web es de gran ayuda. Puede que haya muchos webmasters nuevos que no sepan qué es Robots. Ahora les contaré algunos puntos sobre el funcionamiento de Robots.

1. El origen de Robots.txt

Primero debemos entender que Robots no es un comando o instrucción. Robots es un acuerdo de terceros entre un sitio web y un motor de búsqueda. El contenido del acuerdo es el contenido de Robots.txt. protección de la privacidad en los sitios web. Existe en nuestro archivo A txt en el directorio raíz del sitio web.

2. El papel de Robots.txt

Cuando lanzamos nuestro sitio web, los motores de búsqueda liberarán muchos factores irresistibles, lo que provocará una disminución general de la calidad de nuestras páginas web y una mala impresión de nuestro sitio web en los motores de búsqueda. La función de los robots es bloquearlos. Factores irresistibles. Los factores impiden que las arañas los liberen, entonces, ¿qué páginas debemos bloquear?

1. Bloquee algunas páginas sin contenido: le daré un ejemplo para que quede claro, como: página de registro, página de inicio de sesión, página de compras, página de publicación, página de mensajes, página de inicio de búsqueda, si tiene una página de error 404, También debería bloquearlo.

2. Bloquear páginas duplicadas: si encontramos que nuestro sitio web tiene dos páginas con el mismo contenido pero rutas diferentes, tenemos que usar Robots para bloquear una página. La araña aún la rastreará pero no la liberará. Podemos usar Google Webmaster. Herramientas para bloquear la página. Verifique directamente el número de páginas bloqueadas.

3. Bloquea algunas páginas con enlaces inactivos

Solo necesitamos bloquear aquellas páginas con características comunes. El hecho de que las arañas no puedan rastrear no significa que las arañas no puedan rastrear la dirección y si se puede rastrear son dos conceptos diferentes. manejarlo. No necesitamos bloquear enlaces inactivos. Por ejemplo, necesitamos bloquear enlaces inactivos causados por nuestra ruta que no se puede procesar.

4. Bloquear algunas rutas más largas: Podemos usar Robots para bloquear rutas largas que excedan el cuadro de entrada de la URL.

3. Uso de Robots.txt

1. Creación de Robots.txt

Cree un nuevo archivo de bloc de notas localmente, asígnele el nombre Robots.txt y luego coloque este archivo en nuestro directorio raíz, de modo que se cree nuestro Robots.txt. Algunos programas de código abierto como Dreamweaver vienen con Robots, cuando lo modificamos. Sólo es necesario descargarlo desde el directorio raíz.

2. Gramática común

La sintaxis de agente de usuario se utiliza para definir los rastreadores de motores de búsqueda. Disallow significa prohibido. Permitir significa permitido.

Primero, conozcamos los rastreadores de los motores de búsqueda, que son arañas o robots.

Para Baidu spider, escribimos Baiduspider en Robots, y para Google robot, escribimos Googlebot.

Introduzcamos el método de escritura. Nuestra primera línea es definir primero el motor de búsqueda.

Agente de usuario: Baiduspider (Se debe prestar especial atención al hecho de que cuando escribimos Robots, debe haber un espacio después de los dos puntos. Al mismo tiempo, si queremos definir todos los motores de búsqueda, debemos usar * en lugar de Baiduspider )

No permitir: /admin/

El significado de esta oración es decirle a Baidu Spider que no incluya las páginas web en la carpeta de administración de mi sitio web. Si eliminamos la barra después de admin, el significado cambia por completo. Significa decirle a Baidu Spider que no incluya las páginas en la carpeta de administración. carpeta de mi sitio web Todas las páginas web en la carpeta de administración en mi directorio raíz.

Permitir significa permitido o no prohibido. En términos generales, no se usará solo. Se usará junto con Disallow. El propósito de usarlo en conjunto es facilitar el blindaje de directorios y las aplicaciones flexibles, y reducir el uso de código. , tomemos / Hay 100.000 archivos en la carpeta SEO / y hay dos archivos que deben rastrearse. No podemos escribir decenas de miles de códigos, lo que será muy agotador. Solo necesitamos unas pocas líneas para funcionar. juntos.

Agente de usuario: *(define todos los motores de búsqueda)

Disallow: /seo/ (deshabilita la inclusión de carpetas seo)

Permitir: /seo/ccc.php

Permitir: /seo/ab.html

Permitir que estos dos archivos se capturen e incluyan al mismo tiempo, para que podamos resolver el problema con cuatro líneas de código. Algunas personas pueden preguntar si está más estandarizado poner No permitir al frente o Permitir al frente, o si No permitir. se coloca en la parte delantera.

Este artículo fue creado originalmente por http://www.51diaoche.net. Se permite la reimpresión. Indique el autor original.

Editor en jefe: espacio personal del autor de Yangyang, Longfeng Hoisting Machinery