Internet devient de plus en plus cool et la popularité du WWW est à son apogée. La publication d'informations sur les entreprises et la conduite du commerce électronique sur Internet ont évolué de mode en mode. En tant que Web Master, vous connaissez peut-être bien HTML, Javascript, Java et ActiveX, mais savez-vous ce qu'est un Web Robot ? Savez-vous quelle est la relation entre Web Robot et la page d’accueil que vous concevez ?
Les vagabonds sur Internet --- Web Robot
Parfois, vous constaterez inexplicablement que le contenu de votre page d'accueil est indexé dans un moteur de recherche, même si vous n'avez jamais eu de contact avec eux. En fait, c’est exactement ce que fait Web Robot. Les Web Robots sont en réalité des programmes capables de parcourir la structure hypertexte d'un grand nombre d'URL Internet et de récupérer de manière récursive tout le contenu d'un site Web. Ces programmes sont parfois appelés « araignées », « Web Wanderers », « vers Web » ou robots d'exploration du Web. Certains sites de moteurs de recherche (Search Engines) bien connus sur Internet disposent de programmes Web Robot spécialisés pour compléter la collecte d'informations, tels que Lycos, Webcrawler, Altavista, etc., ainsi que des sites de moteurs de recherche chinois tels que Polaris, NetEase, GOYOYO, etc.
Web Robot est comme un invité non invité. Que vous vous en souciiez ou non, il sera fidèle aux responsabilités de son maître, travaillant dur et sans relâche sur le World Wide Web. Bien sûr, il visitera également votre page d'accueil, récupérera le contenu du Web. page d'accueil et générer le format d'enregistrement dont il a besoin. Peut-être aimeriez-vous que le contenu de votre page d’accueil soit connu du monde entier, mais que vous ne vouliez pas voir ou indexer certains contenus. Pouvez-vous simplement le laisser « sévir » dans l'espace de votre page d'accueil ? Pouvez-vous commander et contrôler la localisation de Web Robot ? La réponse est bien sûr oui. Tant que vous lisez le reste de cet article, vous pouvez être comme un agent de la circulation, disposant les panneaux de signalisation un par un, indiquant à Web Robot comment effectuer une recherche sur votre page d'accueil, lesquels peuvent être recherchés et lesquels ne sont pas accessibles.
En fait, Web Robot peut comprendre vos paroles.
Ne pensez pas que Web Robot fonctionne sans organisation ni contrôle. De nombreux logiciels Web Robot proposent deux méthodes aux administrateurs de sites Web ou aux producteurs de contenu Web pour restreindre la localisation des Web Robots :
1. Protocole d'exclusion des robots.
Les administrateurs de sites Internet peuvent créer un fichier spécialement formaté sur le site pour indiquer quelle partie du site est accessible. par les robots. Ce fichier est placé dans le répertoire racine du site, c'est-à-dire http://.../robots.txt
2. Balise META Robots
Un auteur de page Web peut utiliser une balise META HTML spéciale pour indiquer si une page Web. La page peut être indexée, analysée ou liée.
Ces méthodes conviennent à la plupart des robots Web. Leur implémentation dans le logiciel dépend du développeur du robot, et leur efficacité n'est pas garantie pour n'importe quel robot. Si vous avez un besoin urgent de protéger votre contenu, vous devez envisager des méthodes de protection supplémentaires telles que l'ajout de mots de passe.
Utilisation du protocole d'exclusion de Robots
Lorsque Robot visite un site Web, tel que http://www.sti.net.cn/ , il vérifie d'abord le fichier http://www.sti.net.cn/robots.txt. Si ce fichier existe, il sera analysé selon ce format d'enregistrement :
User-agent : *
Interdire : /cgi-bin/
Interdire : /tmp/
Interdire : /~joe/
pour déterminer s'il doit récupérer les fichiers du site. Ces enregistrements sont spécialement destinés à Web Robot. Les utilisateurs ordinaires ne verront probablement jamais ce fichier, alors n'y ajoutez pas d'instructions HTML telles que ou "Comment allez-vous" et "D'où venez-vous ?" d'autres fausses salutations.
Il ne peut y avoir qu'un seul fichier "/robots.txt" sur un site, et chaque lettre du nom de fichier doit être entièrement en minuscules. Chaque ligne « Disallow » distincte dans le format d'enregistrement de Robot indique une URL à laquelle vous ne souhaitez pas que Robot accède. Chaque URL doit occuper une ligne distincte, et les phrases malades telles que « Disallow : /cgi-bin/ /tmp/ » ne peuvent pas apparaître. Dans le même temps, les lignes vides ne peuvent pas apparaître dans un enregistrement, car les lignes vides sont le signe de la division de plusieurs enregistrements.
La ligne User-agent indique le nom du Robot ou d'un autre agent. Dans la ligne User-agent, '*' a une signification particulière : tous les robots.
Voici quelques exemples de robot.txt qui
refusent tous les robots sur l'ensemble du serveur :
Agent utilisateur : *
Interdire : /
Autoriser tous les robots à accéder à l'intégralité du site :
Agent utilisateur : *
Refuser:
Ou générez un fichier "/robots.txt" vide.
Certaines parties du serveur sont accessibles à tous les robots
Agent utilisateur : *
Interdire : /cgi-bin/
Interdire : /tmp/
Interdire : /privé/
Rejeter un robot spécifique :
Agent utilisateur : BadBot
Interdire : /
Autoriser un seul robot à visiter :
Agent utilisateur : WebCrawler
Refuser:
Agent utilisateur : *
Interdire : /
Enfin nous donnons le robots.txt sur le site http://www.w3.org/ :
# À utiliser par search.w3.org
Agent utilisateur : W3Crobot/1
Refuser:
Agent utilisateur : *
Interdire : /Membre/ # Ceci est réservé aux membres du W3C uniquement
Interdire : /membre/ # Ceci est réservé aux membres du W3C uniquement
Interdire : /team/ # Ceci est limité à l'équipe W3C uniquement
Interdire : /TandS/Member # Ceci est réservé aux membres du W3C uniquement
Interdire : /TandS/Team # Ceci est limité à l'équipe W3C uniquement
Interdire : /Projet
Interdire : /Systèmes
Interdire : /Web
Interdire : /Équipe
Utilisation de la balise META Robots
La balise META Robots permet aux auteurs de pages Web HTML d'indiquer si une page peut être indexée ou si elle peut être utilisée pour rechercher davantage de fichiers liés. Actuellement, seuls certains robots implémentent cette fonctionnalité.
Le format de la balise META Robots est :
Comme les autres balises META, elle doit être placée dans la zone HEAD du fichier HTML :
...
Les instructions des balises META des robots sont séparées par des virgules. Les instructions qui peuvent être utilisées incluent [NO]INDEX et [NO] FOLLOW. La directive INDEX indique si un robot d'indexation peut indexer cette page ; la directive FOLLOW indique si le robot peut suivre les liens vers cette page. La valeur par défaut est INDEX et FOLLOW. Par exemple:
Un bon administrateur de site Web doit prendre en compte la gestion des robots afin que ceux-ci puissent gérer leur propre page d'accueil sans compromettre la sécurité de leurs propres pages Web.