Conseils pour éviter les explorations Spider et les erreurs d'indexation : contourner les conflits

Auteur：Eve Cole Date de mise à jour：2011-09-06 17:10:34

Comme vous le savez, vous ne pouvez pas toujours compter sur les moteurs Spider pour fonctionner efficacement lors de l'accès ou de l'indexation de votre site. En s'appuyant entièrement sur leurs propres ports, les robots généreront beaucoup de contenu en double, traiteront les pages importantes comme des déchets, indexeront les entrées de liens qui ne devraient pas être montrées aux utilisateurs et rencontreront d'autres problèmes. Certains outils nous permettent de contrôler entièrement les activités des robots sur le site Web, tels que les balises méta robots, robots.txt, les balises canoniques, etc.

Aujourd'hui, je vais parler des limites de l'utilisation de la technologie de contrôle des robots. Afin d'empêcher les robots d'explorer une certaine page, les webmasters utilisent parfois plusieurs technologies de contrôle de robot pour interdire aux moteurs de recherche d'accéder à une certaine page Web. Malheureusement, ces techniques peuvent parfois entrer en conflit les unes avec les autres : à l’inverse, de telles restrictions peuvent cacher certains liens morts.

Alors, que se passe-t-il lorsque l'accès au fichier robots d'une page est bloqué ou est utilisé avec des balises noindex et des balises canoniques ?

Examen rapide

Avant d’entrer dans le vif du sujet, examinons quelques techniques limitantes des robots grand public :

balises métabot

La balise Meta Robots établit des descriptions de classement de page pour les robots des moteurs de recherche. La balise méta robot doit être placée en tête du fichier HTML.

balise canonique

La balise canonique est une balise méta au niveau de la page située dans l'en-tête HTML d'une page Web. Il indique aux moteurs de recherche quelles URL sont affichées correctement. Son objectif est d'empêcher les moteurs de recherche d'explorer le contenu en double, tout en concentrant le poids des pages en double sur la page standardisée.

Le code est comme ceci :

XRobot Tags

Depuis 2007, Google et d'autres moteurs de recherche prennent en charge X-Robots-Tag comme moyen d'indiquer aux robots de prioriser l'exploration et l'indexation des fichiers à utiliser. Cette balise est utile pour contrôler l'indexation des fichiers non HTML, tels que les fichiers PDF.

étiquette de robot

robots.txt permet à certains moteurs de recherche d'accéder au site Web, mais il ne garantit pas si une page spécifique sera explorée et indexée. Sauf pour des raisons de référencement, robots.txt ne vaut vraiment la peine d'être utilisé que s'il est vraiment nécessaire ou s'il y a des robots sur le site qui doivent être bloqués. Je recommande toujours d'utiliser la balise de métadonnées "noindex" à la place.

éviter les conflits

Il n’est pas judicieux d’utiliser deux méthodes pour restreindre l’entrée des robots en même temps :

· Meta Robots 'noindex'

· Balise canonique (lorsque vous pointez vers une URL différente)

· Robots.txt Interdire

· X-Robots-Tag (x étiquette de robot)

Même si vous souhaitez conserver votre page dans les résultats de recherche, une approche vaut toujours mieux que deux. Jetons un coup d'œil à ce qui se passe lorsqu'il existe de nombreuses techniques de contrôle de chemin de robots dans une seule URL.

Meta Robots 'noindex' et balises canoniques

Si votre objectif est de transmettre l'autorité d'une URL à une autre URL et que vous n'avez pas d'autre meilleur moyen, vous ne pouvez utiliser que la balise Canonical. Ne vous attirez pas d'ennuis avec le "noindex" des balises méta robot. Si vous utilisez la méthode à deux robots, les moteurs de recherche risquent de ne pas voir du tout votre balise Canonical. L'effet du transfert de poids sera ignoré car la balise noindex du robot l'empêchera de voir la balise Canonical !

Meta Robots 'noindex' et X-Robots-Tag 'noindex'

Ces étiquettes sont redondantes. Lorsque ces deux balises sont placées sur la même page, je ne constate que l’impact négatif sur le SEO. Si vous pouvez modifier le fichier d'en-tête dans le métabot 'noindex', vous ne devez pas utiliser la balise xbot.

Robots.txt Interdire les & Meta Robots 'noindex'

Voici les conflits les plus courants que j'ai vus :

La raison pour laquelle je préfère le "noindex" de Meta Robots est qu'il empêche efficacement l'indexation d'une page, tout en transmettant du poids aux pages plus profondes qui sont connectées à cette page. Il s’agit d’une approche gagnant-gagnant. Le fichier robots.txt n'est pas autorisé à empêcher complètement les moteurs de recherche de voir les informations sur la page (et les précieux liens internes qu'elle contient), et ne peut en particulier pas empêcher l'indexation de l'URL. Quels sont les avantages ? J'ai déjà écrit un article séparé sur ce sujet.

Si les deux balises sont utilisées, robots.txt est garanti pour rendre le « noindex » de Meta Robots invisible pour les araignées. Vous serez affecté par l'interdiction dans robots.txt et manquerez tous les avantages du « noindex » de Meta Robots.

La source de l'article est www.leadseo.cn Shanghai Leadseo, un expert en optimisation de sites Web. Veuillez conserver la source lors de la réimpression. Merci beaucoup !

Rédacteur en charge : Chen Long Espace personnel de l'auteur frank12