Mecanismos de busca como o Google têm um problema. Eles chamam isso de “conteúdo duplicado”. Seu conteúdo é exibido em diversas páginas do site, e eles não sabem em qual endereço exibi-lo. Esse conteúdo duplicado é especialmente problemático quando as pessoas vinculam todas as diferentes versões do seu conteúdo. O objetivo deste artigo é ajudá-lo a compreender as diferentes causas de conteúdo duplicado e, em seguida, descobrir como corrigir cada uma delas.
Razões para conteúdo duplicado
1. Mal-entendido sobre o conceito de URL
2. IDs de sessão
3. Parâmetros de rastreamento de URL
4. Pesquisa e agregação de conteúdo
5. Ordem dos parâmetros
6. Paginação de comentários
7. Imprimir página
8. www x não www
Tag "canônica" de solução alternativa conceitual
1. Identifique conteúdo duplicado
2. Ferramentas do Google para webmasters
3. Comando de pesquisa para consultar o título
Etapas práticas para resolver conteúdo duplicado
1. Evite conteúdo duplicado
2. Redirecionamento 301
4. Use a tag rel="canonical"
5. Link para conteúdo original
Resumo: Conteúdo duplicado pode e deve ser resolvido
Você pode pensar no conteúdo duplicado como se estivesse em uma encruzilhada e houvesse duas direções diferentes nas placas apontando para o mesmo destino. Além do mais, a situação fica ainda pior quando o seu destino é diferente. Como leitor, você não se importa de onde vem o conteúdo, mas os mecanismos de pesquisa precisam escolher um para exibir nos resultados da pesquisa porque não querem exibir o mesmo conteúdo duas vezes.
Por exemplo, conteúdo sobre a palavra-chave -x/ , esta situação não é fictícia, este problema existe em muitos sistemas cms. Por exemplo, seu artigo foi coletado e republicado por alguns internautas, algumas pessoas vinculam ao seu primeiro URL e outras pessoas vinculam ao seu segundo URL. É aqui que entra o problema do conteúdo duplicado. Se todos os links sobre esta palavra-chave apontarem para um URL, a probabilidade da palavra-chave estar na página inicial será muito maior.
Causas de conteúdo duplicado
Existem muitos fatores que podem levar à duplicação de conteúdo. A maior parte é técnica, não é muito comum alguém decidir colocar o mesmo conteúdo em dois lugares diferentes sem citar a fonte original, e a maioria das pessoas acharia isso desconfortável. As razões técnicas também são muito boas. A maioria das razões para isso é que os programadores não se posicionam do ponto de vista dos navegadores ou dos usuários e não se importam com os spiders dos mecanismos de pesquisa, mas apenas seguem o pensamento do programador. Suponha que o artigo mencionado anteriormente apareça em http://www.example.com/keyword-x/ e http://www.example.com/article-category/keyword-x/ ? Se você perguntar ao programador, ele dirá que só aparece uma vez.
Não entendendo o conceito de URL
Então os programadores são loucos? Não, não, ele apenas falou outro idioma novamente. Todo o site que você vê provavelmente é baseado em banco de dados. Nessa base de dados existe apenas um artigo, e o programa do site permite que um artigo da base de dados seja acessado por meio de diferentes URLs. Porque aos olhos dos programadores, o único sinal é que os artigos no banco de dados possuem IDs exclusivos, não URLs. Para motores de busca, o URL é o identificador exclusivo de um artigo. Se você disser isso ao seu programador, ele entenderá a causa do problema e, então, como a maioria dos programadores com quem trabalho, se perguntará por que os mecanismos de pesquisa são estúpidos e por que ele não consegue resolver esse problema. Dessa forma, ele teve outro pensamento errado.
ID da sessão
Freqüentemente, você deseja rastrear os movimentos de seus visitantes, como armazenar os itens que compram em seus carrinhos de compras. Para fazer isso, você deve dar-lhes uma sessão. Uma sessão é basicamente um breve histórico do que um visitante fez em seu site, que pode incluir conteúdo como os itens de um carrinho de compras. Para evitar que a sessão do visitante clique de uma página da web para outra, ela precisa ser armazenada em algum lugar. A solução mais comum são os cookies, no entanto os motores de busca normalmente não armazenam cookies.
O que acontece neste momento é que alguns sistemas de sites utilizam o ID da sessão na URL para retornar. Neste ponto, os links internos de cada site serão anexados ao ID da sessão, e o ID da sessão é único, o que gera uma nova URL e, portanto, conteúdo duplicado.
Usando parâmetros de URL de rastreamento e classificação
Outra causa de conteúdo duplicado é o uso de parâmetros de URL, embora os parâmetros não alterem o conteúdo da página, como no rastreamento de links. Você verá que http://www.example.com/keyword-x/ e http://www.example.com/keyword-x/?source=rss não são os mesmos URLs para mecanismos de pesquisa. Este último pode permitir que você rastreie fontes, o que pode tornar sua classificação um pouco mais difícil, um efeito negativo muito ruim.
Isso não se aplica apenas aos parâmetros de rastreamento, mas também a todos os parâmetros que você adiciona após o URL sem alterar o conteúdo real da sua página. O envolvimento de parâmetros alterará a ordem dos produtos na página da web ou exibirá outra barra lateral, o que levará à duplicação do conteúdo.
Raspagem de conteúdo e agregação de conteúdo
Embora a grande maioria da causa do conteúdo duplicado seja sua própria culpa, ou pelo menos do seu site, às vezes é o uso do seu conteúdo por outro site sem o seu consentimento. Eles nem sempre direcionam para o seu conteúdo original e os mecanismos de pesquisa não sabem que terão que processar outra versão do mesmo artigo.
À medida que seu site se torna mais popular, você encontrará cada vez mais rastreamentos e seus problemas piorarão.
Ordem dos parâmetros
Outro motivo comum é que o CMS não usa URLs concisos e limpos, mas usa /? id=1&cat=2, o ID aqui indica o artigo e cat indica a categoria. Na maioria dos sistemas de construção de sites, este URL /? cat=2&id=1 também renderizará o mesmo conteúdo, mas para os mecanismos de pesquisa eles serão completamente diferentes.
Paginação de comentários
Existe a opção de paginar comentários no sistema wordPRess ou outros programas. Isso resultará na duplicação do conteúdo do artigo na URL do próprio artigo e na URL do artigo+/página de comentários-1/, /página de comentários-2/, etc.
Imprimir página
Se o seu cms gerar páginas impressas e links das páginas do seu artigo, na maioria dos casos o Google encontrará essas páginas, a menos que você as impeça especificamente. Qual versão o Google deve mostrar? Uma página com anúncios e conteúdo ao redor ou uma página apenas com seus artigos.
WWW vs. não WWW
Esta é uma questão antiga, mas às vezes os mecanismos de pesquisa ainda confundem conteúdo duplicado WWW e não WWW quando ambas as versões estão acessíveis.
Uma situação incomum é conteúdo duplicado http vs https.
Tag "canônica" de solução alternativa conceitual
Conforme identificado acima, conteúdo duplicado resultante de URLs diferentes para o mesmo conteúdo é um problema, mas pode ser resolvido. Geralmente, um ser humano pode dizer facilmente qual deve ser o URL correto de um artigo ao publicá-lo. O engraçado é que às vezes você pergunta a 3 pessoas da mesma empresa e obtém 3 respostas diferentes.
Resumo: Conteúdo duplicado pode e deve ser resolvido
Nestes casos o problema precisa ser resolvido porque no final só pode haver uma URL. A URL correta do artigo pode ser denominada Canonical pelos mecanismos de busca.
Identifique conteúdo duplicado
Você pode não saber se há conteúdo duplicado em seu site. Deixe-me dar algumas dicas.
Ferramentas para webmasters do Google
As Ferramentas do Google para webmasters são uma ótima ferramenta para identificar conteúdo duplicado. Se você acessar as Ferramentas do Google para webmasters e visualizar seu site, verifique Diagnóstico -> Sugestões de HTML, você verá algo assim
Se uma página tiver um título ou uma descrição duplicados, não há quase nada de bom acontecendo lá. Clicar nele mostrará quais URLs possuem títulos ou descrições duplicadas para ajudá-lo a identificar o problema. O problema é que se você tiver um artigo sobre “palavra-chave -X” exibido em duas categorias, seus títulos podem ser diferentes. Por exemplo, seus títulos seriam “Palavra-chave X – Categoria X – Exemplo de Site” e “Palavra-chave X – Categoria Y – Exemplo de Site”. O Google não os tratará como títulos duplicados, mas você pode encontrá-los pesquisando.
Encontre o título ou outros fragmentos
Existem vários operadores de pesquisa que são muito úteis nesta situação. Se quiser encontrar todos os URLs de artigos em seu site que contenham a palavra-chave “X”, você pode inserir o seguinte comando na caixa de pesquisa do Google:
site:example.com intitle:"Palavra-chave X"
Copiar código
O Google mostrará todas as páginas em example.com que contêm essa palavra-chave. Quanto mais palavras-chave específicas você pesquisar na seção do título, mais fácil será encontrar conteúdo duplicado e eliminá-lo. Você também pode usar o mesmo método para identificar seu conteúdo duplicado em sites de outras pessoas. Por exemplo, o título completo do seu artigo é palavra-chave X - por que é incrível, você pode pesquisar
intitle:"Palavra-chave X - por que é incrível"
Copiar código
O Google retornará todos os sites que contenham este título. Às vezes, você também pode pesquisar uma ou duas frases em seu artigo, porque alguns raspadores de conteúdo podem alterar seu título. Em alguns casos, quando você pesquisa, o Google pode exibir a seguinte mensagem no final dos resultados:
Este é um sinal de que o Google removeu resultados de dados duplicados. Obviamente, isso não é bom. Você pode continuar clicando para ver outros resultados e ver se isso ajuda a resolver esses problemas.
Etapas práticas para resolver conteúdo duplicado
Depois de decidir qual URL deve ser canonizado para o seu artigo, você deve iniciar algum processo de canonização (ok, eu sei que sou prolixo e já disse isso várias vezes). Isso basicamente significa informar os mecanismos de pesquisa e fazer com que descubram essa versão canônica o mais rápido possível. Aqui estão quatro maneiras de resolver esse problema:
1. Não crie conteúdo duplicado
2. Redirecione conteúdo duplicado para URLs canônicos
3. Adicione uma tag canônica de link à página duplicada
4. Adicione um hiperlink ao URL canônico na página de conteúdo duplicado
evite conteúdo duplicado
Para as causas acima de conteúdo duplicado, existem algumas maneiras fáceis de corrigi-las.
1. ID da sessão no URL?
Normalmente você pode cancelá-lo nas configurações do sistema
2. Existe uma página impressa
Nada disso é necessário, você pode usar uma folha de estilo de impressão
3. Use paginação de comentários no wordpress
Para este problema, você pode cancelar a paginação de comentários nas configurações?
4. Diferentes ordens de parâmetros
Diga ao seu programador para construir um código para classificar na mesma ordem (isso geralmente se refere à fábrica de URL)
5. Rastreando problemas de parâmetros
Na maioria dos casos, você pode usar valores hash # em vez de parâmetros para rastrear campanhas de marketing
6. Problema WWW versus não WWW
Escolha a versão desejada e siga o redirecionamento. Você pode definir isso nas Ferramentas do Google para webmasters.
Se o seu problema não for tão fácil de resolver, ainda pode valer a pena o esforço para evitar conteúdo duplicado. Esta é a melhor solução até agora.
Redirecionamento 301 de conteúdo duplicado
Em alguns casos, não é possível impedir completamente que o conteúdo do artigo do sistema usado gere URLs incorretos, mas você pode redirecioná-los. Se isso não faz sentido para você (e eu entendo), lembre-se de mencionar isso aos seus programadores. Além disso, se você resolver um problema de conteúdo duplicado, certifique-se de redirecionar todos os URLs antigos de conteúdo duplicado para os URLs canônicos apropriados.
Use rel="Canônico"
Às vezes você não quer ou não consegue resolver o problema de artigos duplicados, mas é preciso saber que é a URL errada. Para este problema específico, os motores de busca também introduziram este
Elementos canônicos. A parte onde ele é colocado no seu site é assim:
<link rel="canonical" href=" http://example.com/keyword-x/"/ >
Na parte href da tag de link canônico, você coloca o URL canônico correto do artigo. Quando o Google ou outros mecanismos de pesquisa que suportam esse atributo encontrarem esse elemento de link, ele fará um salto suave de 301: também passará pela página Most. do valor do link vai para seu URL canônico.
Este processo será mais lento do que um redirecionamento 301, portanto, seria preferível usar o 301 John Mueller do Google mencionado http://www.seroundtable.com/google-canonical-tag-vs-301-redirect-12611.html
Link de volta para sua versão original
Se você não conseguir fazer o que foi dito acima, provavelmente não terá controle sobre a seção "cabeçalho" do seu site, onde o conteúdo é exibido, e também é uma boa ideia adicionar um link para sua página original na parte superior ou inferior da página. a página. Existem alguns outros artigos aos quais você deseja adicionar um link em seu feed RSS. Alguns rastreadores podem filtrar esses links, mas alguns podem permanecer lá, e se o Google contar vários links que apontam para o seu artigo, ele também saberá rapidamente que esta é a versão canônica exata do artigo.
Resumo: Conteúdo duplicado pode e deve ser resolvido
Conteúdo duplicado acontece em todos os lugares. Ainda não encontrei um site com mais de 1.000 páginas sem um único conteúdo duplicado. Isso requer sua atenção em todos os momentos. Isso pode ser resolvido e as recompensas podem ser ótimas. As classificações da sua página de conteúdo de alta qualidade podem disparar depois que você aborda o conteúdo duplicado. Claro, primeiro você precisa identificar esses problemas, ajudar seus programadores a encontrar soluções para os problemas e até mesmo ajudá-lo a resolvê-los.
Autor da tradução: zhipeng
Fonte do artigo: Fórum Lightyear ( http://www.gnbase.com/thread-474-1.html )
Texto original em inglês: http://yoast.com/articles/duplicate-content/
Nota: O artigo foi reimpresso na página inicial do Webmaster com a autorização do zhipeng, Lightyear Forum. Caso necessite reimprimir, indique a fonte e o link do artigo.