Prometi escrever um artigo para Ah Bin há muito tempo e sou grato por sua ajuda, mas não o escrevi até agora. Há alguns dias, vi Zhuo Shao fazer uma pergunta sobre robôs e compilei. isso para todos. Vamos falar sobre algumas situações de robôs. O arquivo robots.txt é colocado no diretório raiz do site e é o primeiro arquivo que os mecanismos de pesquisa visualizam ao acessar o site. Quando um spider de pesquisa visita um site, ele primeiro verifica se o robots.txt existe no diretório raiz do site. Se existir, o robô de pesquisa determinará o escopo de acesso com base no conteúdo do arquivo; não existir, todos os spiders de busca poderão acessar todas as páginas do site que não sejam protegidas por senha. Todo site deve ter um robô que informe aos mecanismos de pesquisa quais coisas em meu site não podem ser rastreadas e quais páginas podem ser rastreadas e rastreadas.
Várias funções dos robôs:
1. Impedir que todos os mecanismos de pesquisa rastreiem informações Se o seu site for apenas privado e você não quiser que muitas pessoas saibam sobre ele, você pode usar robôs para bloquear todos os mecanismos de pesquisa, como um blog privado que você escreve. Você pode bloquear todos os mecanismos de pesquisa
Agente do usuário: *
Proibir: /
2. Se você deseja que apenas um determinado mecanismo de pesquisa rastreie suas informações, você pode usar robôs para configurá-lo neste momento. Por exemplo: Quero que meu site seja incluído apenas no Baidu, mas não em outros mecanismos de pesquisa. Você pode usar robôs para configurá-lo
Agente do usuário: Baiduspider
Permitir:
Agente do usuário: *
Proibir: /
3. Você pode usar vários curingas para configurar o site adequadamente. Por exemplo, se eu não quiser que o site rastreie todas as minhas fotos, posso usar $ para configurá-lo. Geralmente, nossos formatos de imagem comuns são BMP, JPG, GIF, JPEG e outros formatos. As configurações neste momento são:
Agente do usuário: *
Não permitir: /.bmp$
Não permitir: /.jpg$
Não permitir: /.gif$
Não permitir: /.jpeg$
4. Você também pode usar * para bloquear URLs relacionados. Quando alguns sites não permitem que mecanismos de pesquisa rastreiem endereços dinâmicos, você pode usar este curinga * para definir configurações correspondentes. Em circunstâncias normais, uma das características dos URLs dinâmicos é que existe "?". Neste momento, podemos usar este recurso para realizar o bloqueio de correspondência:
Agente do usuário: *
Proibir: /*?*
5. Se o site for revisado e toda a pasta tiver desaparecido, neste caso, considere bloquear a pasta inteira. Podemos usar robôs para bloquear a pasta inteira. Por exemplo, a pasta ab do site foi excluída devido à revisão. Neste caso, pode ser definida assim:
Agente do usuário: *
Proibir: /ab/
6. Se houver uma pasta no site que você não deseja incluir, mas houver informações nesta pasta que podem ser incluídas. Então você pode usar a permissão dos robôs para configurá-lo. Por exemplo, a pasta ab em meu site não pode ser rastreada pelos mecanismos de pesquisa, mas há um CD de informações na pasta ab que pode ser rastreada. Neste momento, você pode usar robôs para configurá-lo:
Agente do usuário: *
Proibir: /ab/
Permitir:/ab/cd
7. A localização do mapa do site pode ser definida em robôs, o que é benéfico para a inclusão do site.
mapa do site:<localização do mapa do site>
8. Às vezes, você descobrirá que robôs estão configurados em meu site, mas também descobrirá que ele inclui esse endereço URL. A razão para isso é porque o spider desse mecanismo de pesquisa rastreia a página da web por meio do URL. URLs como este Não há título e descrição, mas quando o Baidu rastreia esse URL, ele trará o título e a descrição, muitas pessoas dirão que eu configurei robôs, mas não surtiu efeito. A situação real é que o link é rastreado, mas o conteúdo da página não é incluído.
A página inicial do site tem o maior peso, e o peso é transferido por links Montamos robôs para melhor transferir o peso para aquelas páginas que precisam ter peso alto, e algumas páginas não precisam ser rastreadas e rastreadas por busca. motores de.
Editor responsável: Chen Long Autor︶ Espaço pessoal de Shitou Peng