Os arquivos de robôs são um "acordo de cavalheiros" entre o site e o programa spider - os arquivos de robôs podem não apenas economizar recursos do site, mas também ajudar os spiders a rastrear a web de maneira mais eficaz, melhorando assim as classificações.
1: Permitir apenas bot do Google
Se você deseja bloquear todos os rastreadores, exceto o Googlebot:
Agente do usuário:*
proibir:/
Uer-agent: nome de spider permitido
Proibir:
2: A diferença entre "/pasta/" e "/pasta"
Por exemplo:
Agente do usuário:*
Proibir:/pasta/
Não permitir:/pasta
"Disallow:/folder/" significa que um diretório foi interceptado. Todos os arquivos neste diretório não podem ser rastreados, mas folder.hlml pode ser rastreado.
"Disallow:/folder": Todos os arquivos e folder.html em /folder/ não podem ser rastreados.
3: "*" corresponde a qualquer caractere
Agente do usuário:*
Indica bloquear todos os spiders. Depois de realizarmos o processamento pseudoestático, haverá páginas da web dinâmicas e páginas da web estáticas ao mesmo tempo. O conteúdo das páginas da web é exatamente o mesmo e é considerado uma página espelhada. páginas Você pode usar o sinal * para bloquear as páginas dinâmicas da web.
Agente do usuário:*
Proibir:/?*?/
4: URL correspondente $ termina
Se quiser interceptar URLs que terminam com uma determinada string, você pode usar $. Por exemplo, se quiser interceptar URLs que terminam com .asp:
Agente do usuário:*
Não permitir:/*.asp$
Você também pode abrir sites relativamente bons para ver como seus arquivos de robôs são gravados e, em seguida, fazer as modificações correspondentes de acordo com suas necessidades. Os arquivos robots podem permitir que os spiders gastem mais tempo no conteúdo a ser rastreado, portanto, é necessário otimizar os arquivos robots.
Este artigo vem de Dongyang Gaofu: http://mygaofu.com Por favor, indique o link ao reimprimir.
Editor-chefe: Yangyang Autor Adoro otimizar o espaço pessoal