Você encontrará um arquivo robots.txt no FTP de muitos sites. Muitos webmasters só sabem que este é um arquivo que restringe o acesso do spider.
O que é um arquivo robots? Este arquivo é uma ponte de comunicação entre os mecanismos de pesquisa e os sites. É um arquivo de sintaxe acordado entre os dois. Cada vez que um mecanismo de pesquisa rastreia um site, ele primeiro verifica esse arquivo, assim como a chave do. porta. Se este arquivo não existir, significa que o rastreamento do mecanismo de pesquisa não está restrito. Se este arquivo existir, ele será rastreado de acordo com os requisitos especificados no arquivo. Alguns webmasters podem perguntar: quando construímos um site, definitivamente precisamos que ele seja indexado pelos mecanismos de pesquisa, então por que devemos restringir seu rastreamento? Os mecanismos de pesquisa pesquisarão todo o site durante o processo de rastreamento e pode haver algum conteúdo no seu? site que você coletou, ou páginas semelhantes sem conteúdo substancial, a avaliação do seu site será bastante reduzida depois que o mecanismo de pesquisa o rastrear e não terá um efeito de SEO. No entanto, o arquivo robots pode informar o spider. para quais páginas ele não deseja ir. Também reduz indiretamente a carga no servidor.
Há várias coisas a serem observadas sobre este arquivo:
1. O nome do arquivo não pode ser escrito incorretamente e deve estar em letras minúsculas e o sufixo deve ser .txt.
2. O arquivo deve ser colocado no diretório raiz do site, como: http://www.taofengyu.com/robots.txt , e deve estar acessível.
3. A sintaxe do conteúdo do arquivo deve estar correta. Geralmente, User-agent e Disallow são comumente usados:
Agente do usuário:* significa que todos os spiders de mecanismos de pesquisa têm permissão para rastrear e incluir. Se você não deseja que o Baidu inclua seu site, substitua * por "baiduspider", então o conteúdo restrito por Disallow não será rastreado e incluído pelo Baidu. aranhas incluídas. Se você deseja restringir o rastreamento de todo o site, o arquivo Disallow deve ser escrito como "Disallow:/". Se você deseja restringir o rastreamento dos arquivos em uma determinada pasta, escreva-o como "Disallow:/admin". /". Se você deseja restringir o rastreamento de arquivos começando com admin, escreva "Disallow:/admin" e assim por diante. Você deseja restringir o rastreamento de arquivos em uma determinada pasta. Por exemplo, você deseja restringir o rastreamento do index.htm na pasta admin, a sintaxe Disallow será escrita como "Disallow:/admin/index.htm". Se não houver "/" após Disallow, significa que todas as páginas do site podem ser rastreadas e incluídas.
Geralmente, não há necessidade de spiders rastrear arquivos de gerenciamento em segundo plano, funções de programas, arquivos de banco de dados, arquivos de folhas de estilo, arquivos de modelo, algumas fotos do site, etc.
4. A função Disallow deve existir no arquivo robots, o que é um fator chave para o estabelecimento deste arquivo.
Isso é tudo sobre a importância e os métodos dos arquivos de robôs. Espero que possa ser útil para todos.
O artigo vem da Taofengyu Student Supplies Network http://www.taofengyu.com/ Por favor, indique a fonte ao reimprimir e respeite o trabalho do autor.
Espaço pessoal do autor para brinquedos infantis no Taobao