Comment empêcher les pages d'un site Web d'être explorées à plusieurs reprises

Auteur：Eve Cole Date de mise à jour：2011-12-22 17:49:16

En observant et en analysant les journaux du site Web, nous avons constaté que de nombreuses pages du site Web étaient explorées à plusieurs reprises par des araignées, ce qui n'est pas très bon pour l'optimisation du site Web. Alors, comment pouvons-nous empêcher les pages d’un site Web d’être explorées à plusieurs reprises par des araignées ?

1. Utilisez le fichier robots pour bloquer cette page. La méthode spécifique est la suivante :

Interdire : /page/ #Restreindre l'exploration de la pagination WordPress Si vous devez vérifier votre site Web, vous pouvez également écrire les instructions suivantes ensemble pour éviter trop de pages en double. * Interdire : /category/*/page/* #Restreindre l'exploration de la pagination des catégories* Interdire :/tag/ #Restreindre l'exploration des pages de balises* Interdire : */trackback/ #Restreindre l'exploration du contenu Trackback* Interdire :/category /* #Restreindre l'exploration de toutes les listes de catégories Qu'est-ce qu'une araignée ? On l'appelle aussi un robot d'exploration. C'est en fait un programme. La fonction de ce programme est de lire certaines informations couche par couche le long de l'URL de votre site Web, d'effectuer un traitement simple, puis de les renvoyer au serveur backend pour un traitement centralisé. Nous devons comprendre les préférences des robots afin de mieux optimiser le site Web. Parlons ensuite du processus de travail des araignées.

2. Spider rencontre des pages dynamiques

Les araignées rencontrent des problèmes lors du traitement des informations dynamiques des pages Web. Les pages Web dynamiques font référence à des pages générées automatiquement par des programmes. Maintenant qu'Internet est développé, il existe de plus en plus de langages de script pour le développement de programmes, et de plus en plus de types de pages Web dynamiques sont naturellement développés, tels que jsp, asp, php et d'autres langages. Il est difficile pour les robots de traiter les pages Web générées par ces langages de script. Lors de l'optimisation, les optimiseurs insistent toujours sur le fait de ne pas utiliser autant que possible le code JS. Pour gérer parfaitement ces langages, les robots doivent disposer de leurs propres scripts. Lors de l'optimisation du site Web, réduisez certains codes de script inutiles pour faciliter l'exploration des araignées et éviter l'exploration répétée de la page !

3. Le temps de l’araignée

Le contenu du site Web change fréquemment, soit par des mises à jour, soit par des changements de modèles. Les Spiders mettent également à jour et explorent constamment le contenu des pages Web. Les développeurs de Spider définiront un cycle de mise à jour pour le robot d'exploration, lui permettant d'analyser le site Web en fonction de l'heure spécifiée pour voir et comparer les pages qui doivent être mises à jour, telles que : La page d'accueil. Si le titre a été modifié, quelles pages sont de nouvelles pages du site Web, quelles pages sont des liens morts qui ont expiré, etc. Le cycle de mise à jour d'un moteur de recherche puissant est constamment optimisé, car le cycle de mise à jour du moteur de recherche a un grand impact sur le taux de rappel du moteur de recherche. Cependant, si le cycle de mise à jour est trop long, la précision et l'intégrité de la recherche du moteur de recherche seront réduites, et certaines pages Web nouvellement générées ne pourront pas être recherchées ; si le cycle de mise à jour est trop court, la mise en œuvre technique sera plus difficile et ; la bande passante sera affectée, entraînant un gaspillage des ressources du serveur.

4. La stratégie d'exploration non répétée de Spider

Le nombre de pages Web sur le site Web est très important et l'exploration des araignées est un projet énorme. Le piratage de pages Web nécessite beaucoup de bande passante, de ressources matérielles, de ressources en temps, etc. Si la même page Web est fréquemment explorée à plusieurs reprises, cela réduira non seulement considérablement l'efficacité du système, mais entraînera également des problèmes tels qu'une faible précision. Habituellement, les systèmes de moteurs de recherche ont conçu une stratégie consistant à ne pas explorer les pages Web de manière répétée afin de garantir que la même page Web n'est explorée qu'une seule fois au cours d'une certaine période de temps.

Il s'agit d'une introduction sur la façon d'éviter l'exploration répétée des pages du site Web. L'article est édité par Global Trade Network.

Rédacteur en chef : Chen Long Auteur Espace personnel de Fuzhou SEO Planning