A última descoberta é que o Baidu Spider é um idiota! Recentemente, descobri que a inclusão do site pelo Baidu é muito lenta. Basicamente, tiro um novo instantâneo da página inicial e outras páginas basicamente não são incluídas! deprimente! Abra o log do IIS do site e verifique. Baixei o Baidu Spider e fiquei chocado. Fiz uma grande descoberta: o Baidu Spider é realmente um idiota!
1. Vejamos primeiro como o Baidu Spider é tão estúpido. A seguir está o registro de atividades do Baidu Spider em meu site.
1. 2009-06-03 21:26:05 W3SVC962713505 218.60.130.19 GET /robots.txt - 80 - 123.125.64.15 Baiduspider+(+http://www.baidu.com/search/spider.htm) 404 0 64 ( Nota: 404 indica robots.txt não encontrado)
2. 03/06/2009 21:26:49 W3SVC962713505 218.60.130.19 GET /index.asp - 80 - 123.125.64.15 Baiduspider + (+ http://www.baidu.com/search/spider.htm) 200 0 64 ( Nota: 200 indica que o arquivo da página inicial index.asp foi encontrado)
Pode-se perceber a partir disso que as atividades do Baidu spider primeiro vão ao site para encontrar o arquivo robots.txt. Se ele não existir, encontre a página inicial index.asp do site. Depois de compará-la com a página inicial atualmente incluída no Baidu. , verifica-se que não há alteração em relação ao original e depois sai. Como a maioria dos webmasters, quem não deseja atualizar instantâneos de páginas incluídas no Baidu de vez em quando. Parece que a única maneira de completar o robots.txt é fazer com que os spiders do Baidu circulem pelo meu site.
2. Escreva robots.txt e leve o Baidu para dar uma olhada em seu site.
robots.txt Este arquivo deve ser escrito. Todos vocês sabem como escrevê-lo especificamente? Se não, vou repetir novamente.
Exemplo 1. Desabilitar o acesso de todos os mecanismos de pesquisa a qualquer parte do site
Agente do usuário: *
Proibir: /
Exemplo 2. Permitir que todos os robôs acessem
(Ou você também pode criar um arquivo vazio "/robots.txt")
Agente do usuário: *
Proibir:
ou
Agente do usuário: *
Permitir: /
(Nota da tabela: Isso é necessário. Não crie um arquivo vazio. Isso é fumar do Baidu. É melhor escrever a seguinte frase.)
Exemplo 3. Proibir apenas o acesso do Baiduspider ao seu site
Agente do usuário: Baiduspider
Proibir: /
Exemplo 4. Permitir apenas que o Baiduspider acesse seu site
Agente do usuário: Baiduspider
Proibir:
Agente do usuário: *
Proibir: /
Exemplo 5. Proibir spiders de acessar diretórios específicos
Neste exemplo, o site possui três diretórios que restringem o acesso aos mecanismos de busca, ou seja, o robô não acessará esses três diretórios. Deve-se observar que cada diretório deve ser declarado separadamente e não pode ser escrito como "Disallow: /cgi-bin/ /tmp/".
Agente do usuário: *
Proibir: /cgi-bin/
Proibir: /tmp/
Proibir: /~joe/
Exemplo 6. Permitir acesso a alguns URLs em um diretório específico
Agente do usuário: *
Permitir: /cgi-bin/see
Permitir: /tmp/oi
Permitir: /~joe/look
Proibir: /cgi-bin/
Proibir: /tmp/
Proibir: /~joe/
Exemplo 7. Use “*” para restringir o acesso a URLs
É proibido o acesso a todas as URLs com o sufixo ".htm" (incluindo subdiretórios) no diretório /cgi-bin/.
Agente do usuário: *
Não permitir: /cgi-bin/*.htm
Exemplo 8. Use “$” para restringir o acesso a URLs
Somente URLs com o sufixo ".htm" podem ser acessados.
Agente do usuário: *
Permitir: .htm$
Proibir: /
Exemplo 9. Desative o acesso a todas as páginas dinâmicas do site
Agente do usuário: *
Proibir: /*?*
Exemplo 10. Proibir o Baiduspider de rastrear todas as imagens do site
Apenas páginas da web podem ser rastreadas, nenhuma imagem pode ser rastreada.
Agente do usuário: Baiduspider
Não permitir: .jpg$
Não permitir: .jpeg$
Não permitir: .gif$
Não permitir: .png$
Não permitir: .bmp$
Exemplo 11. Permitir que o Baiduspider rastreie apenas páginas da web e imagens no formato .gif
É permitida a captura de páginas web e imagens em formato gif, mas não é permitida a captura de imagens em outros formatos.
Agente do usuário: Baiduspider
Permitir: .gif$
Não permitir: .jpg$
Não permitir: .jpeg$
Não permitir: .png$
Não permitir: .bmp$
Exemplo 12. Proibir apenas o Baiduspider de capturar imagens no formato .jpg
Agente do usuário: Baiduspider
Não permitir: .jpg$
Dê uma olhada no robots.txt escrito pela própria tabela, para sua referência
Copiar código
Agente do usuário: *
Proibir: /admin/
Proibir: /Soft/
Permitir: /imagens/
Permitir: /html/
Permitir: .htm$
Permitir: .php$
Permitir: .asp$
Permitir: .gif$
Permitir: .jpg$
Permitir: .jpeg$
Permitir: .png$
Permitir: .bmp$
Permitir: /
explicar:
1. Permitir indexação por vários motores de busca
2. Desative a indexação do diretório /admin Este é o backend do site. Claro, é proibido.
3. Desative diretórios de segurança importantes, como /soft
4. Permitir acesso ao diretório /images
5. Permitir acesso ao diretório /html
6. Permitir acesso a todos os arquivos htm, php, asp, html
7. Permite capturar imagens nos formatos gif, jpg, jpeg, png, bmp
8. Permite o rastreamento de arquivos no diretório raiz do site.
Ok, carregue seu robots.txt para o site e diretório e espere o Baidu Spider voltar. Quando chegar a hora, este bom guia levará aquele idiota até sua estação e passeará por aí. O autor deste artigo foi coletado e publicado pela rede atacadista de roupas de comércio exterior MOFHOT www.mofhot.com Por favor, deixe um link em A5. Obrigado ~ Não é fácil publicar um artigo.