El archivo Robots.txt es un texto TXT simple, pero los expertos en SEO que se centran en la construcción y optimización de sitios web conocen su importancia. Su existencia puede bloquear páginas que no desea que los motores de búsqueda rastreen, o puede ser como una imagen. El mapa también guía el camino para las arañas. Cuando una araña accede a un sitio, lo primero a lo que accede es si el archivo Robots.txt existe y luego realiza el acceso al índice de acuerdo con las pautas del contenido. Si el archivo no existe, accede a él secuencialmente de acuerdo con las instrucciones. los enlaces de la página. Por lo tanto, podemos usarlo para bloquear algunos directorios que no necesitan ser indexados por los motores de búsqueda, o describir el mapa del sitio en Robots.txt para guiar a las arañas en el rastreo. Esto es muy poderoso para la seguridad del sitio web o para ahorrar ancho de banda del servidor y guiar la indexación. Se puede decir que ha logrado el efecto de promover las propias fortalezas y evitar las propias debilidades. Hagamos un análisis detallado a continuación.
1. Utilice Robots.txt para ahorrar ancho de banda del servidor
En términos generales, los webmasters rara vez realizan esta configuración. Sin embargo, cuando el servidor tiene una gran cantidad de visitas y demasiado contenido, es necesario realizar una configuración para ahorrar ancho de banda del servidor, como bloquear carpetas como:image, que es. útil para la indexación de motores de búsqueda. No tiene importancia práctica y desperdicia mucho ancho de banda. Para un sitio web de imágenes, el consumo es aún más asombroso, por lo que usar Robots.txt puede resolver completamente este problema.
2. Proteger el directorio de seguridad del sitio web
En términos generales, al configurar Robots.txt, se deben configurar el directorio de administración, la base de datos y el directorio de respaldo para evitar que las arañas se rastreen, de lo contrario, es fácil que se produzca una fuga de datos que afecte la seguridad del sitio web. Por supuesto, hay otros directorios que el administrador no quiere que las arañas indexen, que también se pueden configurar para que los motores de búsqueda puedan cumplir estrictamente con esta regla de indexación.
3. Prohibir a los motores de búsqueda indexar la página.
Siempre hay algunas páginas en un sitio web que no queremos que el público vea. En este momento, podemos usar Robots.txt para configurarlas y evitar que las arañas las indexen. Por ejemplo, hace unos días, mi Internet. La velocidad era lenta y actualicé un artículo, lo que resultó en una publicación continua y repetida. Busqué 3 veces y todos los resultados fueron indexados por los motores de búsqueda. El contenido duplicado definitivamente no es bueno para la optimización del sitio web. En este momento, puede configurar Robots.txt para bloquear páginas redundantes.
4. Mapa del sitio del enlace Robots.txt
Dado que lo primero que mira una araña cuando visita un sitio web es el archivo Robots.txt, podemos configurar el mapa del sitio en él, lo que ayudará a las arañas a indexar la información más reciente y evitar muchos errores innecesarios. Por ejemplo, se muestra la página del mapa de la empresa de construcción de sitios web profesionales Pilot Technology: http://www.****.net.cn/sitemap.xml Agregarla a Robots.txt es aún más propicio para la indexación en los motores de búsqueda. . No es necesario acudir a los motores de búsqueda todos los días para enviar archivos de mapas, ¿no es muy conveniente?
5. Métodos de escritura y precauciones.
El estilo de escritura de Robots.txt debe estandarizarse. Hay muchas personas que son descuidadas al escribir. Primero que nada: User-agent:* debe escribirse, * significa para todos los motores de búsqueda. Disallow: (directorio de archivos) no incluye corchetes, lo que significa que la indexación en motores de búsqueda está prohibida. Aquí hay un ejemplo para ilustrar:
Ejemplo 1:
Agente de usuario:*
Rechazar:/
Indica que está prohibido el acceso al índice de cualquier motor de búsqueda,
Ejemplo 2:
Agente de usuario:*
No permitir:/seebk
Indica que los índices de los motores de búsqueda tienen prohibido acceder al directorio seebk.
Ejemplo 3:
Agente de usuario: baiduspider
Agente de usuario:*
Rechazar:/
Indica que solo se permite el acceso al índice apilado de Baidu Spider: Baidu: baiduspider, Google: googlebot, Soso: sosospider, Alexa: ia_archiver, Yahoo: Yahoo Slurp
Ejemplo 4:
Agente de usuario:*
No permitir: .jpg$
Para evitar la vinculación directa de imágenes jpg, no es necesario configurarlo si su ancho de banda es suficiente.
Posdata: Optimice Robots.txt para maximizar sus fortalezas y evitar sus debilidades. Hacer un buen trabajo en Robots.txt facilitará la optimización y el desarrollo del sitio web. ¡Este artículo fue escrito originalmente por www.joyweb.net.cn !
Autor del espacio personal de la red binaria.