Dicas para evitar rastreamentos de aranha e erros de indexação: contornando conflitos

Autor：Eve Cole Data da Última Atualização：2011-09-06 17:10:34

Como você sabe, nem sempre você pode confiar nos motores spider para operar com eficiência ao acessar ou indexar seu site. Ao confiar inteiramente em suas próprias portas, os spiders gerarão muito conteúdo duplicado, tratarão páginas importantes como lixo, indexarão entradas de links que não deveriam ser mostradas aos usuários e terão outros problemas. Existem algumas ferramentas que nos permitem controlar totalmente as atividades dos spiders dentro do site, como meta tags de robôs, robots.txt, tags canônicas, etc.

Hoje falarei sobre as limitações do uso da tecnologia de controle de robôs. Para evitar que spiders rastreiem uma determinada página, os webmasters às vezes usam várias tecnologias de controle de robôs para proibir que os mecanismos de pesquisa acessem uma determinada página da web. Infelizmente, estas técnicas podem por vezes entrar em conflito entre si: por outro lado, tais restrições podem esconder certos links mortos.

Então, o que acontece quando o acesso ao arquivo robots de uma página é bloqueado ou é usado com tags noindex e tags canônicas?

Revisão rápida

Antes de entrarmos no assunto, vamos dar uma olhada em algumas técnicas limitantes dos robôs convencionais:

tags metabot

A Meta Robots Tag estabelece descrições de classificação de páginas para robôs de mecanismos de pesquisa. A meta tag do robô deve ser colocada no início do arquivo HTML.

etiqueta canônica

A tag canônica é uma meta tag de nível de página localizada no cabeçalho HTML de uma página da web. Ele informa aos mecanismos de pesquisa quais URLs são exibidos corretamente. Seu objetivo é evitar que os mecanismos de busca rastreiem conteúdo duplicado e, ao mesmo tempo, concentrar o peso das páginas duplicadas na página padronizada.

O código é assim:

Robô X Tags

Desde 2007, o Google e outros mecanismos de pesquisa oferecem suporte ao X-Robots-Tag como uma forma de instruir os spiders a priorizar o rastreamento e a indexação de arquivos para uso. Esta tag é útil para controlar a indexação de arquivos não HTML, como arquivos PDF.

etiqueta de robô

O robots.txt permite que alguns mecanismos de pesquisa entrem no site, mas não garante se uma página específica será rastreada e indexada. A menos que seja por motivos de SEO, o robots.txt só vale a pena usar se for realmente necessário ou se houver robôs no site que precisam ser bloqueados. Eu sempre recomendo usar a tag de metadados “noindex”.

evitar conflitos

Não é aconselhável usar dois métodos para restringir a entrada do robô ao mesmo tempo:

· Meta Robôs 'noindex'

· Tag canônica (ao apontar para uma URL diferente)

· Não permitir Robots.txt

· X-Robots-Tag (x etiqueta do robô)

Por mais que você queira manter sua página nos resultados da pesquisa, uma abordagem é sempre melhor que duas. Vamos dar uma olhada no que acontece quando há muitas técnicas de controle de caminho de robôs em uma única URL.

Meta Robots 'noindex' e tags canônicas

Se o seu objetivo é passar a autoridade de um URL para outro URL e você não tem outra maneira melhor, você só pode usar a tag Canonical. Não se meta em problemas com o "noindex" das metatags do robô. Se você usar o método de dois robôs, os mecanismos de pesquisa poderão não ver sua tag Canonical. O efeito da transferência de peso será ignorado porque a tag noindex do robô impedirá que ele veja a tag Canonical!

Meta Robots 'noindex' e X-Robots-Tag 'noindex'

Esses rótulos são redundantes. Quando essas duas tags são colocadas na mesma página, só consigo ver o impacto negativo no SEO. Se você pode alterar o arquivo de cabeçalho no metabot 'noindex', não deve usar a tag xbot.

Robots.txt Proibir &Meta Robots 'noindex'

Aqui estão os conflitos mais comuns que já vi:

A razão pela qual eu prefiro o "noindex" do Meta Robots é porque ele efetivamente impede que uma página seja indexada, ao mesmo tempo que passa peso para páginas mais profundas que estão conectadas a esta página. Esta é uma abordagem ganha-ganha. O arquivo robots.txt não tem permissão para restringir completamente os mecanismos de pesquisa de verem as informações na página (e os links internos valiosos dentro dela) e, especificamente, não pode restringir a indexação do URL. Quais são os benefícios? Certa vez, escrevi um artigo separado sobre esse assunto.

Se ambas as tags forem usadas, o robots.txt tornará o 'noindex' do Meta Robots invisível para os spiders. Você será afetado pela proibição do robots.txt e perderá todos os benefícios do 'noindex' do Meta Robots.

A fonte do artigo é www.leadseo.cn Shanghai Leadseo, um especialista em otimização de sites. Por favor, guarde a fonte ao reimprimir.

Editor responsável: Chen Long Espaço pessoal do autor frank12