Nous savons qu'un grand nombre de webmasters recherchent un moyen d'empêcher les araignées d'explorer leurs pages sur leurs sites Web, et ils le font également en utilisant le fichier robot.txt. Bien qu'il s'agisse effectivement d'une bonne pratique, le problème se présente également : confusion lors de l'utilisation de robot.txt pour empêcher Google/Yahoo!/MSN ou d'autres robots des moteurs de recherche d'explorer. Voici une brève explication :
Empêcher l'exploration via Robots.txt : certaines adresses URL ne souhaitent pas être consultées, mais peuvent toujours être explorées et apparaître dans les pages de résultats des moteurs de recherche.
Bloqué par le NoIndex de la balise META : il est accessible, mais il ne veut pas être crawlé et il ne veut pas être listé dans les résultats de recherche.
Bloquer en désactivant l'exploration des liens sur la page : ce n'est pas une décision très intelligente car il y a d'autres liens qui voudraient quand même explorer la page pour l'indexer (si vous ne vous en souciez pas, cela gaspillera des araignées sur votre page ! Vous pouvez également le faire si vous souhaitez augmenter le temps de recherche, mais ne pensez pas que cela l'empêchera d'apparaître sur la page de résultats du moteur de recherche.)
Voici un exemple simple. Bien que l'exploration des araignées soit limitée dans le fichier robot.txt, elle apparaîtra toujours dans les résultats de recherche Google.
(les fichiers robot.txt sont également valables pour les sous-domaines)
Nous pouvons voir que le fichier /library/nosearch/ de about.com a été bloqué. La figure suivante montre les résultats lorsque nous recherchons l'adresse URL dans ce fichier dans Google :
Notez que Google dispose encore de 2 760 résultats de recherche dans des catégories dites organisées. Ils n’ont pas exploré ces pages, ils n’ont donc vu qu’une simple adresse de lien, sans description ni titre, car Google ne pouvait pas voir le contenu de ces pages.
Imaginons en outre que si vous disposez d'un grand nombre de pages Web que vous ne souhaitez pas explorer par les moteurs de recherche, ces adresses URL seront toujours comptées et accumuleront du trafic et d'autres facteurs de classement indépendants inconnus, mais elles ne pourront pas suivre le lien, afin que les liens qui en sortent ne puissent jamais être vus, voir l'image ci-dessous :
Voici deux méthodes pratiques :
1. Enregistrez ce trafic de liens en utilisant la commande nofollow lors de la création de liens vers des répertoires interdits dans robot.txt.
2. Si vous connaissez les flux de liens fixes de ces pages interdites (en particulier celles apportées par des liens externes), vous pouvez envisager d'utiliser le noindex de méta et de suivre à la place, afin que les robots ignorent ces flux de liens pour économiser du temps pour récupérer plus de pages. votre site Web qui en a besoin !
Cet article provient de la technologie de référencement personnel reamo, blog de promotion en ligne : http://www.aisxin.cn Veuillez indiquer la source lors de la réimpression.