Observando e analisando os logs do site, descobrimos que muitas páginas do site foram rastreadas repetidamente por spiders, o que não é muito bom para a otimização do site. Então, como podemos evitar que as páginas do site sejam rastreadas repetidamente por spiders?
1. Use o arquivo robots para bloquear esta página. O método específico é o seguinte:
Proibir: /page/ #Restringir o rastreamento da paginação do WordPress Se precisar verificar seu site, você também pode escrever as seguintes instruções juntas para evitar muitas páginas duplicadas. * Proibir: /category/*/page/* #Restringir o rastreamento da paginação de categoria* Proibir:/tag/ #Restringir o rastreamento de páginas de tags* Proibir: */trackback/ #Restringir o rastreamento do conteúdo do Trackback* Proibir:/categoria /* #Restringe o rastreamento de todas as listas de categorias O que é um spider Ele também é chamado de crawler. Na verdade, é um programa. A função deste programa é ler algumas informações camada por camada ao longo da URL do seu site, fazer um processamento simples e, em seguida, alimentá-las de volta ao servidor back-end para processamento centralizado. Devemos entender as preferências dos spiders para otimizar melhor o site. A seguir vamos falar sobre o processo de trabalho das aranhas.
2. Spider encontra páginas dinâmicas
Os spiders enfrentam problemas ao processar informações dinâmicas de páginas da web. Páginas da web dinâmicas referem-se a páginas geradas automaticamente por programas. Agora que a Internet está desenvolvida, há cada vez mais linguagens de script para desenvolvimento de programas, e cada vez mais tipos de páginas web dinâmicas são desenvolvidos naturalmente, como jsp, asp, php e outras linguagens. É difícil para os spiders processar páginas da web geradas por essas linguagens de script. Ao otimizar, os otimizadores sempre enfatizam não usar código JS tanto quanto possível. Para lidar perfeitamente com essas linguagens, os spiders precisam ter seus próprios scripts. Ao otimizar o site, reduza alguns códigos de script desnecessários para facilitar o rastreamento do spider e evitar o rastreamento repetido da página!
3. Hora da Aranha
O conteúdo do site muda frequentemente, seja através de atualizações ou alterações de modelos. Os Spiders também atualizam e rastreiam constantemente o conteúdo das páginas da web. Os desenvolvedores do Spider definirão um ciclo de atualização para o rastreador, permitindo que ele verifique o site de acordo com o tempo especificado para ver e comparar quais páginas precisam ser atualizadas, como: Página inicial. Se o título foi alterado, quais páginas são novas no site, quais páginas são links mortos que expiraram, etc. O ciclo de atualização de um poderoso mecanismo de busca é constantemente otimizado, porque o ciclo de atualização do mecanismo de busca tem um grande impacto na taxa de recall do mecanismo de busca. No entanto, se o ciclo de atualização for muito longo, a precisão e a integridade da pesquisa do mecanismo de pesquisa serão reduzidas e algumas páginas da Web recém-geradas não serão pesquisáveis. Se o ciclo de atualização for muito curto, a implementação técnica será mais difícil e; a largura de banda será afetada, causando um desperdício de recursos do servidor.
4. Estratégia de rastreamento não repetido do Spider
O número de páginas da web no site é muito grande e o rastreamento de aranha é um projeto enorme. O cracking de páginas da web requer muita largura de banda de linha, recursos de hardware, recursos de tempo, etc. Se a mesma página da web for rastreada repetidamente, isso não apenas reduzirá bastante a eficiência do sistema, mas também causará problemas como baixa precisão. Normalmente, os sistemas de mecanismos de pesquisa criaram uma estratégia para não rastrear páginas da web repetidamente. Isso garante que a mesma página da web seja rastreada apenas uma vez em um determinado período de tempo.
Esta é a introdução sobre como evitar o rastreamento repetido das páginas do site. O artigo foi editado pela Global Trade Network.
Editor-chefe: Chen Long Autor Espaço pessoal do Fuzhou SEO Planning