Sempre enfatizei a otimização dos detalhes antes. Sim, os requisitos atuais do Baidu para sites são ver se seus detalhes estão bem feitos. Códigos, tags, etc. são detalhes, então os robôs também fazem parte dos detalhes do site. bem para nós. O site é de grande ajuda. Pode haver muitos novos webmasters que não sabem o que é Robots.
1. A origem do Robots.txt
Devemos primeiro entender que Robots não é um comando ou instrução. Robots é um acordo de terceiros entre um site e um mecanismo de pesquisa. O conteúdo do contrato era o conteúdo do Robots.txt. proteção de privacidade em sites. Ele existe em nosso arquivo A txt no diretório raiz do site.
2. A função do Robots.txt
Quando lançarmos o nosso site, muitos fatores irresistíveis serão divulgados pelos motores de busca, o que levará a um declínio geral na qualidade das nossas páginas web e a uma má impressão do nosso site nos motores de busca. fatores irresistíveis. Fatores impedem que os spiders os liberem, então quais páginas devemos bloquear?
1. Bloqueie algumas páginas sem conteúdo: vou dar um exemplo para deixar claro, como: página de cadastro, página de login, página de compras, página de postagem, página de mensagem, página inicial de pesquisa, se você tiver uma página de erro 404, você também deve bloqueá-lo.
2. Bloquear páginas duplicadas: Se descobrirmos que nosso site tem duas páginas com o mesmo conteúdo, mas caminhos diferentes, teremos que usar robôs para bloquear uma página. O spider ainda irá rastreá-la, mas não a liberará. Ferramentas para bloquear a página Verifique diretamente o número de páginas bloqueadas.
3. Bloqueie algumas páginas com links inativos
Precisamos apenas bloquear as páginas com características comuns. O fato de os spiders não poderem rastreá-lo não significa que os spiders não possam rastrear o endereço e se ele pode ser rastreado são dois conceitos diferentes. lidar com isso. Não precisamos bloquear links mortos. Por exemplo, precisamos bloquear links mortos causados por nosso caminho que não pode ser resolvido.
4. Bloqueie alguns caminhos mais longos: Podemos usar robôs para bloquear caminhos longos que excedem a caixa de entrada da URL.
3. Uso de Robots.txt
1. Criação de Robots.txt
Crie um novo arquivo de bloco de notas localmente, nomeie-o como Robots.txt e, em seguida, coloque esse arquivo em nosso diretório raiz, para que nosso Robots.txt seja criado. Alguns programas de código aberto, como o Dreamweaver, vêm com o Robots. só precisa baixá-lo do diretório raiz.
2. Gramática comum
A sintaxe User-Agent é usada para definir rastreadores de mecanismos de pesquisa. Proibir significa proibido. Permitir significa permitido.
Vamos primeiro conhecer os rastreadores dos mecanismos de busca, que são spiders ou robôs.
Para o Baidu spider, escrevemos Baiduspider em Robots, e para o robô Google, escrevemos Googlebot.
Vamos apresentar o método de escrita. Nossa primeira linha é definir primeiro o mecanismo de pesquisa.
Agente do usuário: Baiduspider (Deve-se prestar especial atenção ao fato de que quando escrevemos Robots, deve haver um espaço após os dois pontos. Ao mesmo tempo, se quisermos definir todos os motores de busca, devemos usar * em vez de Baiduspider )
Proibir: /admin/
O significado desta frase é dizer ao Baidu Spider para não incluir as páginas da web na pasta admin do meu site. Se removermos a barra após admin, o significado muda completamente. pasta do meu site. Todas as páginas da web na pasta admin no meu diretório raiz.
Permitir significa permitido ou não proibido. De modo geral, não será usado sozinho. O objetivo de usá-lo em conjunto é facilitar a blindagem de diretório e aplicativos flexíveis, e reduzir o uso de código. , vamos pegar / Existem 100.000 arquivos na pasta SEO/ e há dois arquivos que precisam ser rastreados. Não podemos escrever dezenas de milhares de códigos, o que será muito cansativo. junto.
Agente do usuário: *(define todos os mecanismos de pesquisa)
Disallow: /seo/ (desativa a inclusão de pastas seo)
Permitir: /seo/ccc.php
Permitir: /seo/ab.html
Permitir que esses dois arquivos sejam capturados e incluídos ao mesmo tempo, para que possamos resolver o problema com quatro linhas de código. Algumas pessoas podem perguntar se é mais padronizado colocar Disallow na frente ou Allow na frente, ou se Disallow. é colocado na frente.
Este artigo foi originalmente criado por http://www.51diaoche.net. A reimpressão é bem-vinda.
Editor-chefe: Espaço pessoal do autor Yangyang Longfeng Hoisting Machinery