J'ai toujours insisté sur l'optimisation des détails auparavant. Oui, les exigences actuelles de Baidu pour les sites Web sont de voir si vos détails sont bien faits. Les codes, les balises, etc. sont des détails, donc les robots font également partie des détails du site Web. Eh bien pour nous, le site Web est d'une grande aide. Il se peut que de nombreux nouveaux webmasters ne sachent pas ce qu'est les robots. Je vais maintenant vous expliquer quelques points sur le fonctionnement des robots.
1. L'origine de Robots.txt
Nous devons d'abord comprendre que Robots n'est pas une commande ou une instruction. Robots est un accord tiers entre un site Web et un moteur de recherche. Le contenu de l'accord est le contenu du fichier Robots.txt. protection de la vie privée sur les sites Web. Elle existe dans notre fichier A txt dans le répertoire racine du site Web.
2. Le rôle de Robots.txt
Lorsque nous lançons notre site Web, de nombreux facteurs irrésistibles seront libérés par les moteurs de recherche, ce qui entraînera une baisse globale de la qualité de nos pages Web et une mauvaise impression de notre site Web sur les moteurs de recherche. Le rôle des robots est de les bloquer. facteurs irrésistibles. Des facteurs empêchent les araignées de les libérer, alors quelles pages devons-nous bloquer ?
1. Bloquer certaines pages sans contenu : je vais vous donner un exemple pour que ce soit clair, comme : page d'inscription, page de connexion, page d'achat, page de publication, page de message, page d'accueil de recherche, si vous avez une page d'erreur 404, vous devrait également le bloquer.
2. Bloquer les pages en double : si nous constatons que notre site Web comporte deux pages avec le même contenu mais des chemins différents, nous devons utiliser des robots pour bloquer une page. L'araignée l'explorera toujours mais ne la publiera pas. Nous pouvons utiliser Google Webmaster. Outils pour bloquer la page. Vérifiez directement le nombre de pages bloquées.
3. Bloquez certaines pages de liens morts
Nous devons uniquement bloquer les pages présentant des caractéristiques communes. Le fait que les araignées ne peuvent pas l'explorer ne signifie pas que les araignées ne peuvent pas explorer l'adresse. Pouvoir explorer l'adresse et savoir si elle peut être explorée sont deux concepts différents. Nous n'avons pas besoin de bloquer les liens morts. Par exemple, nous devons bloquer les liens morts causés par notre chemin qui ne peuvent pas être traités.
4. Bloquez certains chemins plus longs : nous pouvons utiliser des robots pour bloquer les chemins longs qui dépassent la zone de saisie de l'URL.
3. Utilisation du fichier Robots.txt
1. Création de Robots.txt
Créez un nouveau fichier bloc-notes localement, nommez-le Robots.txt, puis placez ce fichier dans notre répertoire racine, afin que notre Robots.txt soit créé. Certains programmes open source tels que Dreamweaver sont livrés avec Robots, lorsque nous le modifions. il suffit de le télécharger à partir du répertoire racine.
2. Grammaire commune
La syntaxe User-agent est utilisée pour définir les robots des moteurs de recherche. Interdire signifie interdit. Autoriser signifie autorisé.
Commençons par connaître les robots des moteurs de recherche, qui sont des araignées ou des robots.
Pour Baidu spider, nous écrivons Baiduspider dans Robots, et pour Google robot, nous écrivons Googlebot.
Présentons la méthode d'écriture. Notre première ligne consiste à définir d'abord le moteur de recherche.
Agent utilisateur : Baiduspider (Une attention particulière doit être portée au fait que lorsque nous écrivons Robots, il doit y avoir un espace après les deux points. En même temps, si nous voulons définir tous les moteurs de recherche, nous devons utiliser * au lieu de Baiduspider )
Interdire : /admin/
Le sens de cette phrase est de dire à Baidu Spider de ne pas inclure les pages Web dans le dossier admin de mon site Web. Si nous supprimons la barre oblique après admin, le sens change complètement. Cela signifie dire à Baidu Spider de ne pas inclure les pages dans l'administrateur. dossier de mon site Web. Toutes les pages Web dans le dossier admin de mon répertoire racine.
Autoriser signifie autorisé ou non interdit. De manière générale, il ne sera pas utilisé seul. Il sera utilisé avec Disallow. Le but de son utilisation conjointe est de faciliter le blindage des répertoires et les applications flexibles, et de réduire l'utilisation de code. , prenons / Il y a 100 000 fichiers dans le dossier SEO/, et il y a deux fichiers qui doivent être explorés. Nous ne pouvons pas écrire des dizaines de milliers de codes, ce qui sera très fatiguant. Nous n'avons besoin que de quelques lignes pour travailler. ensemble.
Agent utilisateur : *(définit tous les moteurs de recherche)
Interdire : /seo/ (désactiver l'inclusion des dossiers seo)
Autoriser : /seo/ccc.php
Autoriser : /seo/ab.html
Permettre à ces deux fichiers d'être capturés et inclus en même temps, afin que nous puissions résoudre le problème avec quatre lignes de code. Certaines personnes peuvent se demander s'il est plus standardisé de mettre Disallow au début ou Allow au début, ou si Disallow. est placé devant.
Cet article a été créé à l'origine par http://www.51diaoche.net La réimpression est la bienvenue. Veuillez indiquer l'auteur original.
Rédacteur en chef : Espace personnel de l'auteur de Yangyang Longfeng Hoisting Machinery