Archivo Robots.txt, sus amigos más o menos han oído hablar de él, o es posible que lo hayan escrito ellos mismos. De hecho, hasta ahora no he escrito un archivo robots.txt. No es que no pueda escribirlo, simplemente siento que no hay nada en el blog que deba evitarse que las arañas rastreen. Y todo el mundo también debe saber que la probabilidad de que aparezcan enlaces inactivos en un blog personal independiente debería ser muy pequeña y no es necesario ocuparse demasiado de los enlaces inactivos, por lo que no creo que sea necesario. Sin embargo, el método de escritura de archivos robots.txt es una de las habilidades que los webmasters individuales deben dominar y sus usos siguen siendo muy amplios. Aquí hay una introducción detallada, que puede considerar como una revisión usted mismo.
¿Qué es el archivo robots.txt?
A juzgar por el nombre del archivo, tiene un sufijo .txt. También debes saber que se trata de un archivo de texto, que es el Bloc de notas. Robots, aquellos que saben algo de inglés deberían saberlo, significa robot. Para nosotros, este robot representa un robot de motor de búsqueda. Por el nombre, puedes adivinar que este archivo fue escrito especialmente por nosotros para que lo lean las arañas. Su función es decirle a la araña que no es necesario rastrear esas columnas o páginas. Por supuesto, también puede bloquear directamente el acceso de una determinada araña. Tenga en cuenta que este archivo se coloca en el directorio raíz del sitio web para garantizar que la araña pueda leer el contenido del archivo lo antes posible.
El papel de los archivos de robots.
De hecho, el archivo robots lo utilizamos más comúnmente para bloquear enlaces inactivos dentro del sitio web. Todo el mundo debería saber que demasiados enlaces inactivos en un sitio web afectarán el peso del sitio web. Sin embargo, aunque no es problemático limpiar los enlaces inactivos en el sitio web, todavía lleva mucho tiempo, especialmente si hay muchos enlaces inactivos en el sitio web, será muy laborioso limpiarlos en este momento. La utilidad del archivo robots se reflejará. Podemos escribir directamente estos enlaces inactivos en archivos de acuerdo con el formato para evitar que las arañas los rastreen. Si desea limpiarlos, puede hacerlo lentamente en el futuro. Algunos contenidos de sitios web contienen URL o archivos que los webmasters no quieren que las arañas rastreen y también se pueden bloquear directamente. Para proteger a las arañas, generalmente se usan menos.
Cómo escribir archivos de robots
Este punto debería ser más importante. Si escribe algo mal e intenta bloquearlo pero falla, pero si escribe algo que desea capturar y no puede encontrarlo a tiempo, sufrirá una gran pérdida. En primer lugar, necesitamos conocer las dos etiquetas, Permitir y No permitir, una está permitida y la otra no. Todos pueden entender su función.
Agente de usuario: *
Rechazar:
o
Agente de usuario: *
Permitir:
Estos dos párrafos de contenido indican que se permite rastrear todo. De hecho, la etiqueta Disallow se usa para bloquear URL y archivos, a menos que su sitio web solo tenga algunos que desee rastrear y use la etiqueta Permitir. Este agente de usuario: va seguido del nombre de la araña. Todo el mundo debería estar familiarizado con los nombres de las arañas de los principales motores de búsqueda. Tomemos como ejemplo a Soso Spider: Sosospider.
Cuando queremos bloquear a Soso Spider:
Agente de usuario: sosospider
No permitir: /
Puede encontrar que, en comparación con el permiso anterior, esta araña protectora solo tiene una "/" más y su significado ha cambiado dramáticamente. Por lo tanto, debe tener cuidado al escribir y no puede bloquear la araña en sí solo porque escribe un permiso adicional. barra. Pero no lo sé. Además, en user-agent: si el nombre de la araña seguido de "*" es fijo, significa que es para todas las arañas.
Para prohibir que los motores de búsqueda rastreen un directorio, el código de configuración es el siguiente:
Agente de usuario: *
No permitir: /directorio/
Tenga en cuenta que si desea evitar el rastreo de un directorio, debe prestar atención a "/" en el nombre del directorio. Sin "/", significa que el acceso a esta página del directorio y a las páginas del directorio está bloqueado, y con ". /", significa ingresar al directorio bloqueado. En la página de contenido a continuación, estos dos puntos deben distinguirse claramente. Si desea bloquear varios directorios, debe utilizar
Agente de usuario: *
No permitir: /directorio1/
No permitir: /directorio2/
Este formulario no puede tener el formato /directorio 1/directorio 2/.
Si desea evitar que las arañas accedan a un determinado tipo de archivo, por ejemplo, para evitar el rastreo de imágenes en formato .jpg, puede configurarlo en:
Agente de usuario: *
No permitir: .jpg$
Lo anterior es el método de escritura de Shanghai SEO Xiaoma para el archivo de robots de todo el sitio web. Solo habla sobre los tipos y precauciones del método de escritura de robots. Hay una descripción un poco menor de métodos de escritura específicos, como el bloqueo de arañas dirigido u otros métodos de escritura. , pero conoces el significado de permitir y no permitir. Pensar en ello puede derivar en muchos otros significados de la escritura. También hay formas de escribir metaetiquetas de páginas web de robots para páginas web específicas, pero generalmente no se utilizan muchas.
Lo anterior fue compilado por Shanghai seo ponyhttp: //www.mjlseo.com/Indíquelo al reimprimir, gracias
Editor en jefe: espacio personal del autor de Yangyang, Xiaoma Laoma