Los motores de búsqueda como Google tienen un problema. Lo llaman "contenido duplicado". Su contenido se muestra en varias páginas del sitio web y no saben en qué dirección mostrarlo. Este contenido duplicado es especialmente problemático cuando las personas enlazan a todas las diferentes versiones de su contenido. El propósito de este artículo es ayudarlo a comprender las diferentes causas del contenido duplicado y luego descubrir cómo solucionar cada una de ellas.
Razones del contenido duplicado
1. Malinterpretar el concepto de URL
2. ID de sesión
3. Parámetros de seguimiento de URL
4. Búsqueda de contenido y agregación de contenido
5. Orden de los parámetros
6. Paginación de comentarios
7. Imprimir página
8. www versus no www
Etiqueta "canónica" de solución conceptual
1. Identificar contenido duplicado
2. Herramientas para webmasters de Google
3. Comando de búsqueda para consultar el título.
Pasos prácticos para resolver contenido duplicado
1. Evite el contenido duplicado
2. Redirección 301
4. Utilice la etiqueta rel="canonical"
5. Enlace al contenido original
Resumen: el contenido duplicado puede y debe abordarse
Puedes pensar en el contenido duplicado como si estuvieras en una encrucijada y hubiera dos direcciones diferentes en las señales de tráfico que apuntaran al mismo destino. Es más, la situación es aún peor cuando el destino es diferente. Como lector, no te importa de dónde viene el contenido, pero los motores de búsqueda tienen que elegir uno para mostrarlo en los resultados de búsqueda porque no quieren mostrar el mismo contenido dos veces.
Por ejemplo, contenido sobre la palabra clave -x/ , esta situación no es ficticia, este problema existe en muchos sistemas cms. Por ejemplo, su artículo ha sido recopilado y vuelto a publicar por algunos internautas, algunas personas enlazan a su primera URL y otras a su segunda URL. Aquí es donde entra el problema del contenido duplicado. Si todos los enlaces sobre esta palabra clave apuntan a una URL, la probabilidad de que la palabra clave esté en la página de inicio será mucho mayor.
Causas del contenido duplicado
Hay muchos factores que pueden provocar contenido duplicado. La mayor parte es técnica, no es muy común que alguien decida poner el mismo contenido en dos lugares diferentes sin citar la fuente original, y a la mayoría de la gente le resultaría incómodo. Las razones técnicas también son muy buenas. La mayoría de las razones son que los programadores no se posicionan desde la perspectiva de los navegadores o usuarios, y no se preocupan por las arañas de los motores de búsqueda, sino que simplemente siguen el pensamiento del programador. Supongamos que el artículo mencionado anteriormente aparece en http://www.example.com/keyword-x/ y http://www.example.com/article-category/keyword-x/ . Si le preguntas al programador te dirá que solo aparece una vez.
Malinterpretar el concepto de URL
Entonces, ¿están locos los programadores? No, no, simplemente volvió a hablar otro idioma. Todo el sitio web que ve probablemente esté basado en una base de datos. En esa base de datos, solo hay un artículo y el programa del sitio web permite acceder a un artículo de la base de datos a través de diferentes URL. Porque a los ojos de los programadores, la única señal es que los artículos en la base de datos tienen ID únicos, no URL. Para los motores de búsqueda, la URL es el identificador único de un artículo. Si le dice esto a su programador, comprenderá la causa del problema y luego él, como la mayoría de los programadores con los que trabajo, se preguntará por qué los motores de búsqueda son estúpidos y por qué no puede resolver este problema. De esta manera, pasó a otro pensamiento equivocado.
ID de sesión
A menudo desea realizar un seguimiento de los movimientos de sus visitantes, como almacenar los artículos que compran en su carrito de compras. Para ello, debes darles una sesión. Una sesión es básicamente un breve historial de lo que un visitante ha hecho en su sitio, que puede incluir contenido como los artículos de un carrito de compras. Para evitar que la sesión del visitante haga clic de una página web a otra, es necesario almacenarla en algún lugar. La solución más común son las cookies, aunque los motores de búsqueda normalmente no almacenan cookies.
Lo que sucede en este punto es que algunos sistemas de sitios web utilizan el ID de sesión en la URL para regresar. En este punto, a los enlaces internos de cada sitio web se les agregará el ID de sesión, y el ID de sesión es único, lo que genera una nueva URL y, por lo tanto, contenido duplicado.
Uso de parámetros de URL de seguimiento y clasificación
Otra causa de contenido duplicado es el uso de parámetros de URL, aunque los parámetros no cambian el contenido de la página, como en el caso de los enlaces de seguimiento. Verá que http://www.example.com/keyword-x/ y http://www.example.com/keyword-x/?source=rss no son las mismas URL para los motores de búsqueda. Esto último puede permitirle realizar un seguimiento de las fuentes, lo que puede dificultar un poco su clasificación, un efecto negativo muy negativo.
Esto no sólo se aplica a los parámetros de seguimiento, sino que también se aplica a cada parámetro que agregue después de la URL sin cambiar el contenido real de su página. Los parámetros involucrados cambiarán el orden de los productos en la página web o mostrarán otra barra lateral, lo que generará contenido duplicado.
Extracción y agregación de contenido
Si bien la gran mayoría de las causas del contenido duplicado es su propia culpa, o al menos la de su sitio, a veces es el uso de su contenido por parte de otro sitio sin su consentimiento. No siempre enlazan a su contenido original y los motores de búsqueda no saben que tendrán que procesar otra versión de su mismo artículo.
A medida que su sitio se vuelva más popular, encontrará más y más rastreos y sus problemas empeorarán.
Orden de parámetros
Otra razón común es que CMS no usa URL concisas y limpias, sino que usa /? id=1&cat=2, el ID aquí indica el artículo y cat indica la categoría. En la mayoría de los sistemas de creación de sitios web, esta URL /? cat=2&id=1 también mostrará el mismo contenido, pero para los motores de búsqueda será completamente diferente.
Paginación de comentarios
Existe una opción para paginar comentarios en el sistema wordPRess u otros programas. Esto dará como resultado la duplicación del contenido del artículo en la URL del artículo en sí y en la URL del artículo+/página-comentario-1/, /página-comentario-2/, etc.
imprimir página
Si su cms genera páginas impresas y enlaces desde las páginas de sus artículos, en la mayoría de los casos Google encontrará estas páginas a menos que las impida específicamente. ¿Qué versión debería mostrar Google? Una página con anuncios y contenido circundante o una página solo con sus artículos.
WWW frente a no WWW
Esta es una vieja pregunta, pero a veces los motores de búsqueda todavía confunden el contenido duplicado WWW con el que no es WWW cuando se puede acceder a ambas versiones.
Una situación poco común es el contenido duplicado entre http y https.
Etiqueta "canónica" de solución conceptual
Como se identificó anteriormente, el contenido duplicado resultante de diferentes URL para el mismo contenido es un problema, pero se puede resolver. Por lo general, un ser humano puede decirle fácilmente cuál debe ser la URL correcta de un artículo al publicarlo. Lo curioso es que a veces preguntas a 3 personas de la misma empresa y obtienes 3 respuestas diferentes.
Resumen: el contenido duplicado puede y debe abordarse
En estos casos hay que solucionar el problema porque al final solo puede haber una URL. Los motores de búsqueda pueden denominar Canonical a la URL correcta del artículo.
Identificar contenido duplicado
Es posible que no sepa si tiene contenido duplicado en su sitio. Déjame darte algunos consejos.
Herramientas para webmasters de Google
Google Webmaster Tools es una gran herramienta para identificar contenido duplicado. Si va a Herramientas para webmasters de Google y ve su sitio, marque Diagnóstico -> Sugerencias HTML, verá algo como esto
Si una página tiene un título duplicado o una descripción duplicada, no sucede casi nada bueno allí. Al hacer clic en él, se mostrará qué URL tienen títulos o descripciones duplicadas para ayudarle a identificar el problema. El problema es que si tiene un artículo sobre la "palabra clave -X" que se muestra en dos categorías, sus títulos pueden ser diferentes. Por ejemplo, sus títulos serían "Palabra clave X - Categoría X - Sitio de ejemplo" y "Palabra clave X - Categoría Y - Sitio de ejemplo". Google no los tratará como títulos duplicados, pero puedes encontrarlos buscando.
Buscar título u otros fragmentos
Hay varios operadores de búsqueda que resultan muy útiles en esta situación. Si desea encontrar todas las URL de los artículos de su sitio web que contienen su palabra clave "X", puede ingresar el siguiente comando en el cuadro de búsqueda de Google:
sitio:ejemplo.com título:"Palabra clave X"
Copiar código
Google le mostrará todas las páginas de example.com que contengan esa palabra clave. Cuantas más palabras clave específicas busques en la sección de título, más fácil será encontrar contenido duplicado y eliminarlo. También puedes utilizar el mismo método para identificar contenido duplicado tuyo en sitios web de otras personas. Por ejemplo, el título completo de tu artículo es Palabra clave X: por qué es fantástico, puedes buscarlo.
intitle:"Palabra clave X: por qué es increíble"
Copiar código
Google devolverá todos los sitios web que contengan este título. A veces, también puedes buscar una o dos oraciones en tu artículo, porque algunos raspadores de contenido pueden cambiar tu título. En algunos casos, cuando realiza una búsqueda, Google puede mostrar el siguiente mensaje al final de los resultados:
Esta es una señal de que Google ha eliminado resultados de datos duplicados. Obviamente, esto no es bueno. Puede continuar haciendo clic para ver otros resultados y ver si le ayuda a resolver estos problemas.
Pasos prácticos para resolver contenido duplicado
Una vez que decidas qué URL es la que debe canonicalizarse para tu artículo, debes iniciar algún proceso de canonicalización (vale, sé que soy detallado y lo he dicho varias veces). Básicamente, esto significa informar a los motores de búsqueda y hacer que descubran esta versión canónica lo más rápido posible. Aquí hay cuatro formas de resolver este problema:
1. No crees contenido duplicado
2. Redirigir contenido duplicado a URL canónicas
3. Agregue una etiqueta canónica de enlace a la página duplicada.
4. Agregue un hipervínculo a la URL canónica en la página de contenido duplicado.
evitar contenido duplicado
Para las causas anteriores de contenido duplicado, existen algunas formas sencillas de solucionarlas.
1. ¿ID de sesión en URL?
Generalmente puedes cancelarlo en la configuración de tu sistema.
2. Hay una página impresa.
Nada de esto es necesario, puedes usar una hoja de estilo de impresión.
3. Utilice la paginación de comentarios en WordPress.
Para este problema, ¿puedes cancelar la paginación de comentarios en la configuración?
4. Diferentes órdenes de parámetros.
Dígale a su programador que cree un código para ordenar en el mismo orden (esto generalmente se refiere a la fábrica de URL)
5. Seguimiento de problemas de parámetros
En la mayoría de los casos, puede utilizar valores hash # en lugar de parámetros para realizar un seguimiento de las campañas de marketing.
6. Problema entre WWW y no WWW
Elija la versión que desee y siga con la redirección. Puede configurar esto en las Herramientas para webmasters de Google.
Si su problema no es tan fácil de resolver, aún así podría valer la pena el esfuerzo de evitar contenido duplicado. Esta es la mejor solución hasta ahora.
Redirección 301 de contenido duplicado
En algunos casos, no es posible evitar por completo que el contenido del artículo del sistema que utiliza genere URL incorrectas, pero puede redirigirlas. Si esto no tiene sentido para usted (y lo entiendo), debe recordar mencionárselo a sus programadores. Además, si resuelve un problema de contenido duplicado, asegúrese de redirigir todas las URL de contenido duplicado antiguas a las URL canónicas adecuadas.
Utilice rel="canónico"
A veces no quieres o no puedes solucionar el problema de los artículos duplicados, pero tienes que saber que es la URL incorrecta. Para este problema particular, los motores de búsqueda también introdujeron este
Elementos canónicos. La parte donde se coloca en su sitio web se ve así:
<enlace rel="canonical" href=" http://example.com/keyword-x/" />
En la parte href de la etiqueta de enlace canónico, coloca la URL canónica correcta del artículo. Cuando Google u otros motores de búsqueda que admiten este atributo encuentren este elemento de enlace, realizará un salto 301 suave: también pasará a la página Most. del valor del enlace va a su URL canónica.
Este proceso será más lento que una redirección 301, por lo que sería preferible utilizar 301. John Mueller de Google mencionó http://www.seroundtable.com/google-canonical-tag-vs-301-redirect-12611.html
Enlace de regreso a su versión original
Si no puede hacer lo anterior, probablemente no tenga control sobre la sección "encabezado" de su sitio donde se muestra el contenido, y también es una buena idea agregar un enlace a su página original en la parte superior o inferior de la página. Hay algunos otros artículos a los que desea agregar un enlace en su fuente RSS. Algunos rastreadores pueden filtrar estos enlaces, pero otros pueden permanecer allí, y si Google cuenta varios enlaces que apuntan a su artículo, también sabrá rápidamente que esta es la versión canónica exacta del artículo.
Resumen: el contenido duplicado puede y debe abordarse
El contenido duplicado ocurre en todas partes. Todavía tengo que encontrar un sitio web con más de 1000 páginas sin un solo contenido duplicado. Esto requiere tu atención en todo momento. Esto tiene solución y las recompensas pueden ser grandes. La clasificación de su página de contenido de alta calidad puede dispararse después de abordar el contenido duplicado. Por supuesto, primero debe identificar estos problemas, ayudar a sus programadores a encontrar soluciones a los problemas e incluso ayudarlo a usted a resolverlos.
Autor de la traducción: zhipeng
Fuente del artículo: Foro Lightyear ( http://www.gnbase.com/thread-474-1.html )
Texto original en inglés: http://yoast.com/articles/duplicate-content/
Nota: El artículo se reimprime en Webmaster Home con la autorización de zhipeng, Lightyear Forum. Si necesita reimprimir, indique la fuente y el enlace del artículo.