Consejos para evitar errores de indexación y rastreos de arañas: evitar conflictos

Autor：Eve Cole Fecha de actualización：2011-09-06 17:10:34

Como sabe, no siempre puede confiar en que los motores araña funcionen de manera eficiente al acceder o indexar su sitio. Al depender completamente de sus propios puertos, las arañas generarán una gran cantidad de contenido duplicado, tratarán páginas importantes como basura, indexarán entradas de enlaces que no deberían mostrarse a los usuarios y tendrán otros problemas. Existen algunas herramientas que nos permiten controlar totalmente las actividades de las arañas dentro del sitio web, como las meta etiquetas robots, robots.txt, etiquetas canónicas, etc.

Hoy hablaré sobre las limitaciones del uso de la tecnología de control de robots. Para evitar que las arañas rastreen una determinada página, los webmasters a veces utilizan múltiples tecnologías de control de robots para prohibir que los motores de búsqueda accedan a una determinada página web. Desafortunadamente, estas técnicas a veces pueden entrar en conflicto entre sí: por otro lado, tales restricciones pueden ocultar ciertos enlaces inactivos.

Entonces, ¿qué sucede cuando se bloquea el acceso al archivo robots de una página o se usa con etiquetas noindex y etiquetas canónicas?

Revisión rápida

Antes de entrar en el tema, echemos un vistazo a algunas técnicas limitantes de los robots convencionales:

etiquetas metabot

La etiqueta Meta Robots establece descripciones de clasificación de páginas para robots de motores de búsqueda. La etiqueta meta robot debe colocarse al principio del archivo HTML.

etiqueta canónica

La etiqueta canónica es una metaetiqueta a nivel de página ubicada en el encabezado HTML de una página web. Le indica a los motores de búsqueda qué URL se muestran correctamente. Su objetivo es evitar que los motores de búsqueda rastreen contenido duplicado y, al mismo tiempo, concentrar el peso de las páginas duplicadas en la página estandarizada.

El código es así:

X-Robot Tags

Desde 2007, Google y otros motores de búsqueda han apoyado X-Robots-Tag como una forma de decirle a las arañas que prioricen el rastreo y la indexación de archivos para su uso. Esta etiqueta es útil para controlar la indexación de archivos que no son HTML, como archivos PDF.

etiqueta de robot

robots.txt permite que algunos motores de búsqueda ingresen al sitio web, pero no garantiza si una página específica será rastreada e indexada. A menos que sea por razones de SEO, solo vale la pena usar robots.txt si es realmente necesario o si hay robots en el sitio que deben bloquearse. Siempre recomiendo usar la etiqueta de metadatos "noindex".

evitar conflictos

No es aconsejable utilizar dos métodos para restringir la entrada del robot al mismo tiempo:

· Meta Robots 'no índice'

· Etiqueta canónica (cuando apunta a una URL diferente)

· Robots.txt No permitir

· X-Robots-Tag (x etiqueta de robot)

Por mucho que quieras mantener tu página en los resultados de búsqueda, un enfoque siempre es mejor que dos. Echemos un vistazo a lo que sucede cuando hay muchas técnicas de control de rutas de robots en una sola URL.

Meta Robots 'noindex' y etiquetas Canonical

Si su objetivo es pasar la autoridad de una URL a otra URL y no tiene otra manera mejor, entonces solo puede usar la etiqueta Canonical. No te metas en problemas con el "noindex" de las etiquetas de metarobots. Si utiliza el método de dos robots, es posible que los motores de búsqueda no vean su etiqueta Canonical en absoluto. ¡El efecto de la transferencia de peso se ignorará porque la etiqueta noindex del robot le impedirá ver la etiqueta Canonical!

Meta Robots 'noindex' y X-Robots-Tag 'noindex'

Estas etiquetas son redundantes. Cuando estas dos etiquetas se colocan en la misma página, solo puedo ver el impacto negativo en el SEO. Si puedes cambiar el archivo de encabezado en metabot 'noindex', no deberías usar la etiqueta xbot.

Robots.txt No permitir &Meta Robots 'noindex'

Estos son los conflictos más comunes que he visto:

La razón por la que prefiero el "noindex" de Meta Robots es porque previene efectivamente que una página sea indexada, mientras sigue pasando peso a páginas más profundas que están conectadas a esta página. Este es un enfoque en el que todos ganan. El archivo robots.txt no puede restringir completamente que los motores de búsqueda vean la información de la página (y los valiosos enlaces internos que contiene) y, específicamente, no puede restringir la indexación de la URL. ¿Cuáles son los beneficios? Una vez escribí un artículo aparte sobre este tema.

Si se utilizan ambas etiquetas, se garantiza que robots.txt hará que Meta Robots 'noindex' sea invisible para las arañas. Te verás afectado por la no autorización en robots.txt y te perderás todos los beneficios del 'noindex' de Meta Robots.

La fuente del artículo es www.leadseo.cn Shanghai Leadseo, un experto en optimización de sitios web. Conserve la fuente al reimprimir. ¡Muchas gracias!

Editor a cargo: Chen Long Espacio personal del autor frank12