A Internet está ficando cada vez mais bacana e a popularidade da WWW está no auge. A publicação de informações da empresa e a realização de comércio eletrônico na Internet evoluíram de moda em moda. Como Web Master, você pode conhecer bem HTML, Javascript, Java e ActiveX, mas sabe o que é um Web Robot? Você sabe qual é a relação entre o Web Robot e a página inicial que você cria?
Andarilhos na Internet --- Web Robot
Às vezes você descobrirá inexplicavelmente que o conteúdo da sua página inicial está indexado em um mecanismo de busca, mesmo que você nunca tenha tido contato com eles. Na verdade, é exatamente isso que o Web Robot faz. Web Robots são, na verdade, programas que podem percorrer a estrutura de hipertexto de um grande número de URLs da Internet e recuperar recursivamente todo o conteúdo de um site. Esses programas às vezes são chamados de "spiders", "Web Wanderers", "web worms" ou web crawlers. Alguns sites de mecanismos de busca (mecanismos de busca) conhecidos na Internet possuem programas Web Robot especializados para completar a coleta de informações, como Lycos, Webcrawler, Altavista, etc., bem como sites de mecanismos de busca chineses, como Polaris, NetEase, GOYOYO, etc.
Web Robot é como um convidado indesejado, quer você se importe ou não, ele será fiel às responsabilidades de seu mestre, trabalhando duro e incansavelmente na World Wide Web. página inicial e gere o formato de registro necessário. Talvez você gostaria que algum conteúdo da página inicial fosse conhecido pelo mundo, mas algum conteúdo que você não deseja que seja visto ou indexado. Você pode simplesmente deixá-lo "correr desenfreado" no espaço da sua página inicial? Você pode comandar e controlar o paradeiro do Web Robot? A resposta é claro que sim. Contanto que você leia o resto deste artigo, você pode ser como um policial de trânsito, traçando sinais de trânsito um por um, dizendo ao Web Robot como pesquisar em sua página inicial, quais podem ser pesquisados e quais não podem ser acessados.
Na verdade, o Web Robot pode entender suas palavras.
Não pense que o Web Robot está correndo sem organização e controle. Muitos softwares Web Robot fornecem dois métodos para administradores de sites ou produtores de conteúdo da web restringirem o paradeiro de Web Robots:
1. Protocolo de exclusão de robôs
Os administradores de sites da Internet podem criar um arquivo especialmente formatado no site para indicar qual parte do site pode ser acessada. por robots. Este arquivo é colocado no diretório raiz do site, ou seja, http://.../robots.txt
2. Robots META tag
Um autor de página da web pode usar uma tag HTML META especial. a página pode ser indexada, analisada ou vinculada.
Esses métodos são adequados para a maioria dos robôs da Web. A implementação desses métodos no software depende do desenvolvedor do robô e não há garantia de que sejam eficazes para qualquer robô. Se você precisar proteger seu conteúdo com urgência, considere métodos de proteção adicionais, como adicionar senhas.
Usando o protocolo de exclusão do Robots
Quando o Robot visita um site, como http://www.sti.net.cn/ , ele primeiro verifica o arquivo http://www.sti.net.cn/robots.txt. Se este arquivo existir, ele será analisado de acordo com este formato de registro:
User-agent: *
Proibir: /cgi-bin/
Proibir: /tmp/
Proibir: /~joe/
para determinar se deve recuperar os arquivos do site. Esses registros são especialmente para o Web Robot ver. Os visualizadores comuns provavelmente nunca verão este arquivo, portanto, não adicione instruções HTML como ou "Como você está?" outras saudações falsas.
Só pode haver um arquivo "/robots.txt" em um site, e cada letra do nome do arquivo deve estar toda em minúscula. Cada linha separada "Disallow" no formato de registro do Robot indica um URL que você não deseja que o Robot acesse. Cada URL deve ocupar uma linha separada e frases inválidas como "Disallow: /cgi-bin/ /tmp/" não podem aparecer. Ao mesmo tempo, linhas em branco não podem aparecer em um registro, porque linhas em branco são um sinal de divisão de vários registros.
A linha User-agent indica o nome do Robô ou outro agente. Na linha User-agent, '*' tem um significado especial – todos os robôs.
Aqui estão alguns exemplos de robot.txts que
negam todos os robôs em todo o servidor:
Agente do usuário: *
Proibir: /
Permitir que todos os robôs acessem todo o site:
Agente do usuário: *
Proibir:
Ou gere um arquivo "/robots.txt" vazio.
Partes do servidor são acessíveis a todos os robôs
Agente do usuário: *
Proibir: /cgi-bin/
Proibir: /tmp/
Proibir: /private/
Rejeitar um robô específico:
Agente do usuário: BadBot
Proibir: /
Permitir que apenas um robô visite:
Agente do usuário: WebCrawler
Proibir:
Agente do usuário: *
Proibir: /
Finalmente damos o robots.txt no site http://www.w3.org/ :
# Para uso por search.w3.org
Agente do usuário: W3Crobot/1
Proibir:
Agente do usuário: *
Proibir: /Member/ # Isso é restrito apenas aos membros do W3C
Proibir: /member/ # Isso é restrito apenas aos membros do W3C
Proibir: /team/ # Isso é restrito apenas à equipe W3C
Proibir: /TandS/Member # Isso é restrito apenas aos membros do W3C
Não permitir: /TandS/Team # Isso é restrito apenas à equipe W3C
Não permitir: /Projeto
Proibir: /Sistemas
Não permitir: /Web
Proibir: /Equipe
Usando a tag Robots META
A tag Robots META permite que os autores de páginas HTML indiquem se uma página pode ser indexada ou se pode ser usada para localizar mais arquivos vinculados. Atualmente, apenas alguns robôs implementam esse recurso.
O formato da tag Robots META é:
Assim como outras tags META, ela deve ser colocada na área HEAD do arquivo HTML:
...
As instruções da META tag dos robôs são separadas por vírgulas. As instruções que podem ser usadas incluem [NO]INDEX e [NO] FOLLOW. A diretiva INDEX indica se um robô indexador pode indexar esta página; a diretiva FOLLOW indica se o robô pode seguir links para esta página. O padrão é ÍNDICE e SEGUIR. Por exemplo:
Um bom administrador de site deve levar em consideração o gerenciamento de robôs para que eles possam servir sua própria página inicial sem comprometer a segurança de suas próprias páginas web.