Sabemos que una gran cantidad de webmasters buscan una manera de evitar que las arañas rastreen sus páginas en sus sitios web, y también lo hacen utilizando el archivo robot.txt. Si bien esta es una buena práctica, el problema también se presenta: confusión al usar robot.txt para evitar que Google/Yahoo!/MSN u otros motores de búsqueda rastreen. Aquí hay una breve explicación:
Evite el rastreo a través de Robots.txt: algunas direcciones URL no desean que se acceda a ellas, pero aún así se pueden rastrear y aparecer en las páginas de resultados de los motores de búsqueda.
Bloqueado por el NoIndex de la etiqueta META: se puede acceder a él, pero no quiere ser rastreado y no quiere aparecer en los resultados de búsqueda.
Bloquear deshabilitando el rastreo de enlaces en la página: esta no es una medida muy inteligente porque hay otros enlaces que aún querrán rastrear la página para indexarla (¡si no te importa, esto desperdiciará arañas en tu página! También puedes hacer esto si quieres aumentar el tiempo de búsqueda, pero no creas que hacerlo impedirá que aparezca en la página de resultados del motor de búsqueda)
A continuación se muestra un ejemplo sencillo. Aunque el rastreo de arañas está restringido en robot.txt, seguirá apareciendo en los resultados de búsqueda de Google.
(Los archivos robot.txt también son válidos para subdominios)
Podemos ver que el archivo /library/nosearch/ de about.com ha sido bloqueado. La siguiente figura muestra los resultados cuando buscamos la dirección URL en este archivo en Google:
Tenga en cuenta que Google todavía tiene 2.760 resultados de búsqueda en las llamadas categorías organizadas. No rastrearon estas páginas, por lo que todo lo que vieron fue una simple dirección de enlace, sin descripción ni título, porque Google no pudo ver el contenido de estas páginas.
Imaginemos además que si tiene una gran cantidad de páginas web que no desea que los motores de búsqueda rastreen, estas direcciones URL aún se contarán y acumularán tráfico y otros factores de clasificación independientes desconocidos, pero no pueden seguir el enlace, por lo que los enlaces que salen de ellos nunca podrán verse, vea la imagen a continuación:
Aquí hay dos métodos convenientes:
1. Guarde el tráfico de estos enlaces utilizando el comando nofollow cuando enlace a directorios prohibidos en robot.txt.
2. Si conoce los flujos de enlaces fijos de estas páginas prohibidas (especialmente las generadas por enlaces externos), puede considerar usar el noindex de meta y seguirlos en su lugar, de modo que las arañas omitan estos flujos de enlaces para ahorrar tiempo para recuperar más páginas. tu sitio web que lo necesita!
Este artículo proviene del blog de promoción en línea de tecnología SEO personal de reamo: http://www.aisxin.cn Indique la fuente al reimprimir.