Sabemos que um grande número de webmasters está procurando uma maneira de evitar que spiders rastreiem suas páginas em seus sites, e eles também fazem isso usando o arquivo robot.txt. Embora esta seja realmente uma boa prática, o problema também se apresenta: confusão ao usar o robot.txt para evitar o rastreamento do Google/Yahoo!/MSN ou de algum outro mecanismo de pesquisa!
Impedir o rastreamento por meio do Robots.txt: alguns endereços de URL não desejam ser acessados, mas ainda podem ser rastreados e aparecer nas páginas de resultados de mecanismos de pesquisa.
Bloqueado pelo NoIndex da tag META: pode ser acessado, mas não quer ser rastreado e não quer ser listado nos resultados da pesquisa.
Bloquear desativando o rastreamento de links na página: Esta não é uma jogada muito inteligente porque existem alguns outros links que ainda desejam rastrear a página para indexá-la (se você não se importar, isso desperdiçará spiders na sua página). Você também pode fazer isso se quiser aumentar o tempo de pesquisa, mas não pense que isso impedirá que ele apareça na página de resultados do mecanismo de pesquisa)
Aqui está um exemplo simples. Embora o rastreamento de aranha seja restrito no robot.txt, ele ainda aparecerá nos resultados de pesquisa do Google.
(arquivos robot.txt também são válidos para subdomínios)
Podemos ver que o arquivo /library/nosearch/ de about.com foi bloqueado. A figura a seguir mostra os resultados quando pesquisamos o endereço URL neste arquivo no Google:
Observe que o Google ainda possui 2.760 resultados de pesquisa nas chamadas categorias organizadas. Eles não rastrearam essas páginas, então tudo o que viram foi um simples endereço de link, sem descrição e sem título, porque o Google não conseguia ver o conteúdo dessas páginas.
Vamos imaginar ainda que se você tiver um grande número de páginas da web que não deseja que sejam rastreadas pelos mecanismos de pesquisa, esses endereços URL ainda serão contados e acumularão tráfego e outros fatores de classificação independentes desconhecidos, mas eles não podem seguir o link, para que os links que saem deles nunca possam ser vistos, veja a imagem abaixo:
Aqui estão dois métodos convenientes:
1. Salve o tráfego do link usando o comando nofollow ao vincular a diretórios proibidos em robot.txt.
2. Se você conhece os fluxos de links fixos dessas páginas banidas (especialmente aquelas trazidas por links externos), você pode considerar usar o noindex do meta e segui-los, para que os spiders pulem esses fluxos de links para economizar tempo para recuperar mais páginas. seu site que precisa!
Este artigo vem da tecnologia SEO pessoal reamo, blog de promoção online: http://www.aisxin.cn Por favor, indique a fonte ao reimprimir.