O arquivo Robots.txt é um texto TXT simples, mas todos os SEOers que se concentram na construção e otimização de sites sabem de sua importância. Sua existência pode bloquear páginas que você não deseja que os mecanismos de pesquisa rastreiem, ou pode ser como uma imagem. O mapa também orienta o caminho das aranhas. Quando um spider rastreia um site, a primeira coisa que ele acessa é se o arquivo Robots.txt existe e, em seguida, realiza o acesso ao índice de acordo com as diretrizes do conteúdo. Se o arquivo não existir, ele o acessa sequencialmente de acordo com. os links da página. Portanto, podemos usá-lo para bloquear alguns diretórios que não precisam ser indexados pelos mecanismos de pesquisa ou descrever o mapa do site em Robots.txt para orientar o rastreamento dos spiders. Isso é muito poderoso para a segurança do site ou para economizar largura de banda do servidor e orientar a indexação. Pode-se dizer que conseguiu o efeito de promover os próprios pontos fortes e evitar os próprios pontos fracos.
1. Use Robots.txt para economizar largura de banda do servidor
De modo geral, os webmasters raramente fazem tal configuração, porém, quando o servidor tem um grande número de visitas e muito conteúdo, é necessário fazer uma configuração para economizar largura de banda do servidor, como bloquear pastas como:image, que é. útil para indexação em mecanismos de pesquisa. Não tem significado prático e desperdiça muita largura de banda. Para um site de imagens, o consumo é ainda mais impressionante, então usar o Robots.txt pode resolver totalmente esse problema.
2. Proteja o diretório de segurança do site
De modo geral, ao configurar o Robots.txt, o diretório de gerenciamento, o banco de dados e o diretório de backup devem ser configurados para evitar o rastreamento de spiders. Caso contrário, o vazamento de dados pode ocorrer facilmente e afetar a segurança do site. Claro, existem outros diretórios que o administrador não deseja que os spiders indexem, que também podem ser configurados, para que os mecanismos de busca possam cumprir rigorosamente esta regra de indexação.
3. Proibir que mecanismos de pesquisa indexem a página
Sempre há algumas páginas em um site que não queremos que o público veja. Neste momento, podemos usar Robots.txt para configurá-las para evitar que spiders as indexem. Por exemplo, há alguns dias, minha Internet. a velocidade foi lenta e atualizei um artigo, resultando em publicações contínuas e repetidas. Pesquisei 3 vezes e todos os resultados foram indexados pelos motores de busca. Conteúdo duplicado definitivamente não é bom para otimização de sites. Neste momento, você pode configurar o Robots.txt para bloquear páginas redundantes.
4. Mapa do site com link Robots.txt
Como a primeira coisa que um spider olha ao visitar um site é o arquivo Robots.txt, podemos definir o mapa do site nele, o que ajudará os spiders a indexar as informações mais recentes e evitar muitos erros desnecessários. Por exemplo, a página do mapa da empresa de construção de sites profissionais Pilot Technology é exibida: http://www.****.net.cn/sitemap.xml Adicioná-la ao Robots.txt é ainda mais propícia à indexação do mecanismo de pesquisa. . Você não precisa ir aos motores de busca todos os dias para enviar arquivos de mapas, não é muito conveniente?
5. Métodos de escrita e precauções
O estilo de escrita do Robots.txt deve ser padronizado. Muitas pessoas são descuidadas ao escrever. Primeiro de tudo: User-agent:* deve ser escrito, * significa para todos os motores de busca. Não permitir: (diretório de arquivo) não inclui colchetes, o que significa que a indexação do mecanismo de pesquisa é proibida. Aqui está um exemplo para ilustrar:
Exemplo 1:
Agente do usuário:*
Proibir:/
Indica que qualquer acesso ao índice do mecanismo de pesquisa é proibido,
Exemplo 2:
Agente do usuário:*
Proibir:/seebk
Indica que os índices do mecanismo de pesquisa estão proibidos de acessar o diretório seebk.
Exemplo 3:
Agente do usuário:baiduspider
Agente do usuário:*
Proibir:/
Indica que apenas o acesso ao índice empilhado do Baidu spider é permitido: Baidu: baiduspider, Google: googlebot, Soso: sodospider, Alexa: ia_archiver, Yahoo: Yahoo Slurp
Exemplo 4:
Agente do usuário:*
Não permitir:.jpg$
Para evitar hotlinking de imagens JPG, você não precisa configurá-lo se sua largura de banda for suficiente.
Postscript: Otimize o Robots.txt para maximizar seus pontos fortes e evitar seus pontos fracos. Fazer um bom trabalho no Robots.txt tornará mais fácil para o site otimizar e desenvolver-se sem problemas.
Espaço pessoal da rede binária do autor