¡El último descubrimiento es que Baidu Spider es un tonto! Recientemente, descubrí que la inclusión del sitio web por parte de Baidu es muy lenta. Básicamente, tomo una nueva instantánea de la página de inicio después de unos días, ¡y otras páginas básicamente no están incluidas! Deprimente. Abra el registro IIS del sitio web y compruébelo. Descargué Baidu Spider y me sorprendió. Hice un descubrimiento importante: ¡Baidu Spider es realmente un tonto!
1. Veamos primero por qué Baidu Spider es tan estúpido. El siguiente es el registro de actividad de Baidu Spider en mi sitio web.
1. 2009-06-03 21:26:05 W3SVC962713505 218.60.130.19 GET /robots.txt - 80 - 123.125.64.15 Baiduspider+(+http://www.baidu.com/search/spider.htm) 404 0 64 ( Nota: 404 indica robots.txt no encontrado)
2. 2009-06-03 21:26:49 W3SVC962713505 218.60.130.19 OBTENER /index.asp - 80 - 123.125.64.15 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 64 ( Nota: 200 indica que se encontró el archivo de página de inicio index.asp)
De esto se puede ver que las actividades de la araña Baidu primero van al sitio web para encontrar el archivo robots.txt. Si no existe, busque la página de inicio index.asp del sitio web y luego compárelo con la página de inicio incluida actualmente en Baidu. , se descubre que no hay cambios con respecto al original y luego se va. Como la mayoría de los webmasters, ¿quién no quiere actualizar instantáneas de las páginas incluidas en Baidu de vez en cuando? Parece que la única forma de completar el archivo robots.txt es hacer que las arañas de Baidu corran por mi sitio.
2. Escriba robots.txt y lleve a Baidu a explorar su sitio.
robots.txt Este archivo debe estar escrito. ¿Saben todos cómo escribirlo específicamente? Si no, lo repetiré nuevamente.
Ejemplo 1. Deshabilitar el acceso de todos los motores de búsqueda a cualquier parte del sitio web
Agente de usuario: *
No permitir: /
Ejemplo 2. Permitir que todos los robots accedan
(O también puedes crear un archivo vacío "/robots.txt")
Agente de usuario: *
Rechazar:
o
Agente de usuario: *
Permitir: /
(Nota de la tabla: esto es necesario. No cree un archivo vacío. Eso es Baidu fumando. Es mejor escribir la siguiente oración).
Ejemplo 3. Prohibir únicamente el acceso de Baiduspider a su sitio web
Agente de usuario: Baiduspider
No permitir: /
Ejemplo 4. Permita que Baiduspider acceda únicamente a su sitio web
Agente de usuario: Baiduspider
Rechazar:
Agente de usuario: *
No permitir: /
Ejemplo 5. Prohibir que las arañas accedan a directorios específicos
En este ejemplo, el sitio web tiene tres directorios que restringen el acceso al motor de búsqueda, es decir, el robot no accederá a estos tres directorios. Cabe señalar que cada directorio debe declararse por separado y no puede escribirse como "Disallow: /cgi-bin/ /tmp/".
Agente de usuario: *
No permitir: /cgi-bin/
No permitir: /tmp/
No permitir: /~joe/
Ejemplo 6. Permitir el acceso a algunas URL en un directorio específico
Agente de usuario: *
Permitir: /cgi-bin/ver
Permitir: /tmp/hola
Permitir: /~joe/mirar
No permitir: /cgi-bin/
No permitir: /tmp/
No permitir: /~joe/
Ejemplo 7. Utilice "*" para restringir el acceso a las URL
Está prohibido el acceso a todas las URL con el sufijo ".htm" (incluidos los subdirectorios) en el directorio /cgi-bin/.
Agente de usuario: *
No permitir: /cgi-bin/*.htm
Ejemplo 8. Utilice "$" para restringir el acceso a las URL
Sólo se permite acceder a las URL con el sufijo ".htm".
Agente de usuario: *
Permitir: .htm$
No permitir: /
Ejemplo 9. Deshabilitar el acceso a todas las páginas dinámicas del sitio web
Agente de usuario: *
No permitir: /*?*
Ejemplo 10. Prohibir que Baiduspider rastree todas las imágenes del sitio web
Sólo se permite rastrear páginas web, no se permite rastrear imágenes.
Agente de usuario: Baiduspider
No permitir: .jpg$
No permitir: .jpeg$
No permitir: .gif$
No permitir: .png$
No permitir: .bmp$
Ejemplo 11. Permitir que Baiduspider rastree únicamente páginas web e imágenes en formato .gif
Está permitido capturar páginas web e imágenes en formato gif, pero no está permitido capturar imágenes en otros formatos.
Agente de usuario: Baiduspider
Permitir: .gif$
No permitir: .jpg$
No permitir: .jpeg$
No permitir: .png$
No permitir: .bmp$
Ejemplo 12. Prohibir únicamente a Baiduspider capturar imágenes en formato .jpg
Agente de usuario: Baiduspider
No permitir: .jpg$
Eche un vistazo al archivo robots.txt escrito en la propia tabla, para su referencia.
Copiar código
Agente de usuario: *
No permitir: /admin/
No permitir: /Suave/
Permitir: /imágenes/
Permitir: /html/
Permitir: .htm$
Permitir: .php$
Permitir: .asp$
Permitir: .gif$
Permitir: .jpg$
Permitir: .jpeg$
Permitir: .png$
Permitir: .bmp$
Permitir: /
explicar:
1. Permitir la indexación por varios motores de búsqueda.
2. Deshabilite la indexación del directorio /admin. Este es el backend del sitio web. Por supuesto, está prohibido.
3. Deshabilite directorios de seguridad importantes como /soft
4. Permitir el acceso al directorio /images
5. Permitir el acceso al directorio /html
6. Permitir el acceso a todos los archivos htm, php, asp, html
7. Permite capturar imágenes en formatos gif, jpg, jpeg, png, bmp.
8. Permite el rastreo de archivos en el directorio raíz del sitio web.
Bien, sube tu archivo robots.txt al sitio web y al directorio y espera a que Baidu Spider vuelva. Cuando llegue el momento, este buen guía llevará a ese idiota a tu estación y caminará. El autor de este artículo fue recopilado y publicado por la red mayorista de ropa de comercio exterior de MOFHOT www.mofhot.com. Deje un enlace en A5. Gracias ~ No es fácil publicar un artículo.