Arquivo Robots.txt, amigos já ouviram falar dele mais ou menos ou podem tê-lo escrito eles mesmos. Na verdade, eu mesmo não escrevi um arquivo robots.txt até agora. Não é que eu não possa escrevê-lo, apenas sinto que não há nada no blog que precise ser impedido de ser rastreado por spiders. E todos também devem saber que a probabilidade de links mortos em um blog pessoal independente deve ser muito pequena, e não há necessidade de lidar muito com links mortos, então não acho que seja necessário. No entanto, o método de gravação de arquivo robots.txt é uma das habilidades que os webmasters individuais devem dominar e seus usos ainda são muito amplos. Aqui está uma introdução detalhada, que pode ser considerada uma revisão para você mesmo.
O que é o arquivo robots.txt
A julgar pelo nome do arquivo, ele possui um sufixo .txt. Você também deve saber que este é um arquivo de texto, que é o Bloco de Notas. Robôs, todos aqueles que sabem um pouco de inglês devem saber, significa robô. Para nós, este robô representa um robô de mecanismo de busca. Pelo nome, você pode adivinhar que este arquivo foi escrito especialmente por nós para que os spiders possam ler. Sua função é informar ao spider que essas colunas ou páginas não precisam ser rastreadas. Claro, ele também pode bloquear diretamente o acesso de um determinado spider. Observe que este arquivo é colocado no diretório raiz do site para garantir que o spider possa ler o conteúdo do arquivo o mais rápido possível.
O papel dos arquivos de robôs
Na verdade, o arquivo robots é mais comumente usado por nós para bloquear links inativos no site. Todos devem saber que muitos links inativos em um site afetarão o peso do site. No entanto, embora não seja difícil limpar os links inativos do site, ainda leva muito tempo. Especialmente se houver muitos links inativos no site, será muito trabalhoso limpá-los. a utilidade do arquivo robots será refletida. Podemos gravar diretamente esses links inativos em arquivos de acordo com o formato para evitar que os spiders os rastreiem. Alguns conteúdos de sites contêm URLs ou arquivos que os webmasters não desejam que os spiders rastreiem e também podem ser bloqueados diretamente. Para proteger aranhas, eles geralmente são menos usados.
Como escrever arquivo de robôs
Este ponto deveria ser mais importante. Se você escrever algo errado e tentar bloqueá-lo, mas falhar, mas se escrever algo que deseja capturar e não conseguir encontrá-lo a tempo, sofrerá uma grande perda. Em primeiro lugar, precisamos conhecer as duas tags, Permitir e Proibir, uma é permitida e a outra não é permitida. Todos podem entender sua função.
Agente do usuário: *
Proibir:
ou
Agente do usuário: *
Permitir:
Esses dois parágrafos de conteúdo indicam que tudo pode ser rastreado. Na verdade, a tag Disallow é usada para bloquear URLs e arquivos, a menos que seu site tenha apenas alguns que você deseja rastrear e use a tag Allow. Este User-agent: é seguido pelo nome do spider. Todos devem estar familiarizados com os principais nomes dos spiders dos mecanismos de pesquisa. Tomemos como exemplo Soso Spider: Sosospider.
Quando queremos bloquear o Soso Spider:
Agente do usuário: sosospider
Proibir: /
Você pode descobrir que, em comparação com a permissão acima, esta aranha de proteção tem apenas mais um "/" e seu significado mudou drasticamente. Portanto, você deve ter cuidado ao escrever e não pode bloquear a própria aranha só porque escreveu um extra. barra. Mas não sei. Além disso, no user-agent: se o nome do spider seguido de "*" for fixo, significa que é para todos os spiders.
Para proibir que um diretório seja rastreado por spiders de mecanismos de pesquisa, o código de configuração é o seguinte:
Agente do usuário: *
Proibir: /diretório/
Observe que se você deseja evitar o rastreamento de um diretório, você deve prestar atenção a "/" no nome do diretório. Sem "/", significa que o acesso a esta página do diretório e às páginas sob o diretório está bloqueado, e com ". /", significa entrar no diretório bloqueado. Na página de conteúdo abaixo, esses dois pontos devem ser claramente distinguidos. Se você deseja bloquear vários diretórios, você precisa usar
Agente do usuário: *
Não permitir: /diretório1/
Não permitir: /diretório2/
Este formulário não pode estar no formato /diretório 1/diretório 2/.
Se quiser impedir que spiders acessem um determinado tipo de arquivo, por exemplo, para evitar o rastreamento de imagens no formato .jpg, você pode configurá-lo para:
Agente do usuário: *
Não permitir: .jpg$
O texto acima é o método de escrita de Shanghai SEO Xiaoma para o arquivo de robôs de todo o site. Ele apenas fala sobre os tipos e precauções do método de escrita de robôs. Há um pouco menos de descrição de métodos de escrita específicos, como bloqueio de aranha direcionado ou outros métodos de escrita. , mas você conhece o significado de permitir e proibir. Pensar nisso pode derivar muitos outros significados da escrita. Também existem maneiras de escrever meta tags de páginas da web de robôs para páginas da web específicas, mas geralmente não são usadas muitas.
O texto acima foi compilado por Shanghai seo pony http://www.mjlseo.com/ , indique ao reimprimir, obrigado
Editor-chefe: Espaço pessoal do autor de Yangyang, Xiaoma Laoma