Le fichier Robots.txt est un simple texte TXT, mais les référenceurs qui se concentrent sur la construction et l'optimisation de sites Web connaissent tous son importance. Son existence peut bloquer les pages que vous ne souhaitez pas que les moteurs de recherche explorent, ou cela peut ressembler à une image. La carte guide également le chemin des araignées. Lorsqu'une araignée explore un site, la première chose à laquelle elle accède est de savoir si le fichier Robots.txt existe, puis elle effectue un accès à l'index conformément aux instructions du contenu. Si le fichier n'existe pas, elle y accède ensuite séquentiellement selon les instructions. les liens dans la page. Par conséquent, nous pouvons l'utiliser pour bloquer certains répertoires qui n'ont pas besoin d'être indexés par les moteurs de recherche, ou décrire le plan du site dans Robots.txt pour guider les robots dans leur exploration. Ceci est très puissant pour la sécurité du site Web ou pour économiser la bande passante du serveur et guider l'indexation. . On peut dire que cela a eu pour effet de promouvoir ses propres forces et d'éviter ses propres faiblesses. Faisons une analyse détaillée ci-dessous :
1. Utilisez Robots.txt pour économiser la bande passante du serveur
De manière générale, les webmasters effectuent rarement un tel paramétrage. Cependant, lorsque le serveur a un grand nombre de visites et trop de contenu, il est nécessaire de réaliser un paramétrage pour économiser la bande passante du serveur, comme par exemple bloquer des dossiers tels que :image, qui est utile pour l'indexation des moteurs de recherche. Cela n'a aucune signification pratique et gaspille beaucoup de bande passante. Pour un site Web d'images, la consommation est encore plus stupéfiante, donc l'utilisation de Robots.txt peut résoudre complètement ce problème.
2. Protégez le répertoire de sécurité du site Web
De manière générale, lors de la configuration de Robots.txt, le répertoire de gestion, la base de données et le répertoire de sauvegarde doivent être définis pour empêcher les robots d'explorer. Sinon, des fuites de données peuvent facilement se produire et affecter la sécurité du site Web. Bien sûr, il existe d'autres répertoires que l'administrateur ne souhaite pas que les robots indexent, et qui peuvent également être définis afin que les moteurs de recherche puissent strictement respecter cette règle d'indexation.
3. Interdire aux moteurs de recherche d'indexer la page
Il y a toujours des pages sur un site Web que nous ne voulons pas que le public voit. À ce stade, nous pouvons utiliser Robots.txt pour les configurer afin d'empêcher les robots de les indexer. Par exemple, il y a quelques jours, mon Internet. la vitesse était lente et j'ai mis à jour un article, ce qui a entraîné une publication continue et répétée. J'ai cherché 3 fois et tous les résultats ont été indexés par les moteurs de recherche. Que dois-je faire ? Le contenu dupliqué n'est certainement pas bon pour l'optimisation d'un site Web. À l'heure actuelle, vous pouvez configurer Robots.txt pour bloquer les pages redondantes.
4. Plan du site du lien Robots.txt
Étant donné que la première chose qu'une araignée regarde lorsqu'elle visite un site Web est le fichier Robots.txt, nous pouvons y définir le plan du site, ce qui aidera les araignées à indexer les dernières informations et à éviter de nombreuses erreurs inutiles. Par exemple, la page cartographique de l'entreprise professionnelle de construction de sites Web Pilot Technology s'affiche : http://www.****.net.cn/ sitemap.xml L'ajouter à Robots.txt est encore plus propice à l'indexation des moteurs de recherche. . Vous n’avez pas besoin d’aller quotidiennement sur les moteurs de recherche pour soumettre des fichiers cartographiques, n’est-ce pas très pratique ?
5. Méthodes de rédaction et précautions
Le style d'écriture de Robots.txt doit être standardisé. De nombreuses personnes sont négligentes dans l'écriture. Tout d'abord : User-agent :* doit être écrit, * signifie pour tous les moteurs de recherche. Interdire : (répertoire de fichiers) n'inclut pas de crochets, ce qui signifie que l'indexation des moteurs de recherche est interdite. Voici un exemple pour illustrer :
Exemple 1 :
Agent utilisateur :*
Refuser:/
Indique que tout accès aux index des moteurs de recherche est interdit,
Exemple 2 :
Agent utilisateur :*
Interdire :/seebk
Indique qu'il est interdit aux index des moteurs de recherche d'accéder au répertoire seebk.
Exemple 3 :
Agent utilisateur :baiduspider
Agent utilisateur :*
Refuser:/
Indique que seul l'accès à l'index empilé Baidu Spider est autorisé : Baidu : baiduspider, Google : googlebot, Soso : sosospider, Alexa : ia_archiver, Yahoo : Yahoo Slurp.
Exemple 4 :
Agent utilisateur :*
Interdire:.jpg$
Pour empêcher le hotlinking d’images jpg, vous n’avez pas besoin de le définir si votre bande passante est suffisante.
Post-scriptum : optimisez Robots.txt pour maximiser vos points forts et éviter vos faiblesses. Faire du bon travail dans Robots.txt facilitera l'optimisation et le développement du site Web. Cet article a été initialement rédigé par www.joyweb.net.cn !
Espace personnel du réseau binaire de l'auteur