Prometí escribir un artículo para Ah Bin hace mucho tiempo. Estoy agradecido por su ayuda, pero no lo he escrito hasta ahora. Hace unos días, vi que Zhuo Shao hizo una pregunta sobre robots y lo compilé. es para todos. Hablemos de algunas situaciones de robots. El archivo robots.txt se coloca en el directorio raíz del sitio web y es el primer archivo que ven los motores de búsqueda al acceder al sitio web. Cuando una araña de búsqueda visita un sitio, primero comprobará si el archivo robots.txt existe en el directorio raíz del sitio. Si existe, el robot de búsqueda determinará el alcance del acceso en función del contenido del archivo; no existe, todas las arañas de búsqueda podrán acceder a todas las páginas del sitio web que no estén protegidas con contraseña. Cada sitio web debe tener un robot que le indique a los motores de búsqueda qué elementos de mi sitio web no pueden rastrearse y qué páginas pueden rastrearse y rastrearse.
Varias funciones de los robots:
1. Bloquee todos los motores de búsqueda para que no rastreen información. Si su sitio web es solo su sitio web privado y no quiere que mucha gente lo sepa, puede usar robots para bloquear todos los motores de búsqueda, como un blog privado que escriba. Puedes bloquear todos los motores de búsqueda.
Agente de usuario: *
No permitir: /
2. Si solo desea que un determinado motor de búsqueda rastree su información, puede usar robots para configurarlo en este momento. Por ejemplo: solo quiero que mi sitio web se incluya en Baidu, pero no en otros motores de búsqueda. Puedes usar robots para configurarlo.
Agente de usuario: Baiduspider
Permitir:
Agente de usuario: *
No permitir: /
3. Puede utilizar varios comodines para configurar el sitio web en consecuencia. Por ejemplo, si no quiero que el sitio web rastree todas mis imágenes, puedo usar $ para configurarlo. Generalmente, nuestros formatos de imagen comunes son BMP, JPG, GIF, JPEG y otros formatos. Las configuraciones en este momento son:
Agente de usuario: *
No permitir: /.bmp$
No permitir: /.jpg$
No permitir: /.gif$
No permitir: /.jpeg$
4. También puede utilizar * para bloquear URL relacionadas. Cuando algunos sitios web no permiten que los motores de búsqueda rastreen direcciones dinámicas, puede utilizar este comodín * para establecer configuraciones coincidentes. En circunstancias normales, una de las características de las URL dinámicas es que hay un "?". En este momento, podemos usar esta función para realizar el bloqueo coincidente:
Agente de usuario: *
No permitir: /*?*
5. Si se revisa el sitio web y desaparece toda la carpeta, en este caso, debería considerar bloquear toda la carpeta. Podemos usar robots para bloquear toda la carpeta. Por ejemplo, la carpeta ab en el sitio web se eliminó debido a una revisión. En este caso, se puede configurar de esta manera:
Agente de usuario: *
No permitir: /ab/
6. Si hay una carpeta en el sitio web que no desea que se incluya, pero hay información en esta carpeta que puede incluirse. Luego puedes usar el permiso de los robots para configurarlo. Por ejemplo, los motores de búsqueda no permiten que la carpeta ab en mi sitio web sea rastreada, pero hay un CD de información en la carpeta ab que puede ser rastreada. En este momento, puede usar robots para configurarlo:
Agente de usuario: *
No permitir: /ab/
Permitir:/ab/cd
7. La ubicación del mapa del sitio se puede definir en robots, lo que resulta beneficioso para la inclusión del sitio web.
mapa del sitio:<ubicación del mapa del sitio>
8. A veces encontrará que hay robots configurados en mi sitio web pero también encontrará que incluye esta dirección URL. La razón de esto es que la araña de este motor de búsqueda rastrea la página web a través de la URL. URL como esta no tienen título ni descripción, pero cuando Baidu rastrea esta URL, mostrará el título y la descripción, por lo que mucha gente dirá que configuré robots pero no tiene ningún efecto. La situación real es que se rastrea el enlace pero no se incluye el contenido de la página.
La página de inicio del sitio web tiene el peso más alto y el peso se transfiere mediante enlaces. Configuramos robots para transferir mejor el peso a aquellas páginas que necesitan tener un peso alto, y algunas páginas no necesitan ser rastreadas ni rastreadas por la búsqueda. motores de.
Editor a cargo: Chen Long Autor︶ Espacio personal de Shitou Peng