Shitou Cheng : Les robots magiques sont témoins de l'essor et de la chute des sites Web

Auteur：Eve Cole Date de mise à jour：2011-08-02 17:09:44

J'ai promis d'écrire un article pour Ah Bin il y a longtemps. Je lui suis reconnaissant pour son aide, mais je ne l'ai pas écrit jusqu'à présent, j'ai vu Zhuo Shao poser une question sur les robots et je l'ai compilé. c'est pour tout le monde. Parlons de quelques situations de robots. Le fichier robots.txt est placé dans le répertoire racine du site Web et est le premier fichier que les moteurs de recherche affichent lorsqu'ils accèdent au site Web. Lorsqu'un moteur de recherche visite un site, il vérifie d'abord si le fichier robots.txt existe dans le répertoire racine du site. S'il existe, le robot de recherche déterminera l'étendue de l'accès en fonction du contenu du fichier ; n'existe pas, tous les robots de recherche pourront accéder à toutes les pages du site Web qui ne sont pas protégées par mot de passe. Chaque site Web devrait avoir un robot qui indique aux moteurs de recherche quels éléments de mon site Web ne sont pas autorisés à être explorés et quelles pages peuvent être explorées et explorées.

Plusieurs fonctions des robots :

1. Empêchez tous les moteurs de recherche d'explorer les informations. Si votre site Web est uniquement votre site Web privé et que vous ne voulez pas que trop de personnes le sachent, vous pouvez utiliser des robots pour bloquer tous les moteurs de recherche, comme un blog privé que vous écrivez. Vous pouvez bloquer tous les moteurs de recherche

Agent utilisateur : *

Interdire : /

2. Si vous souhaitez uniquement qu'un certain moteur de recherche explore vos informations, vous pouvez utiliser des robots pour le configurer à ce moment-là. Par exemple : je souhaite uniquement que mon site Web soit inclus dans Baidu, mais pas dans d'autres moteurs de recherche. Vous pouvez utiliser des robots pour le configurer

Agent utilisateur : Baiduspider

Permettre:

Agent utilisateur : *

Interdire : /

3. Vous pouvez utiliser différents caractères génériques pour configurer le site Web en conséquence. Par exemple, si je ne souhaite pas que le site Web explore toutes mes photos, je peux utiliser $ pour le configurer. Généralement, nos formats d'image courants sont les formats BMP, JPG, GIF, JPEG et autres. Les paramètres à ce moment sont :

Agent utilisateur : *

Interdire : /.bmp$

Interdire : /.jpg$

Interdire : /.gif$

Interdire : /.jpeg$

4. Vous pouvez également utiliser * pour bloquer les URL associées. Lorsque certains sites Web n'autorisent pas les moteurs de recherche à explorer les adresses dynamiques, vous pouvez utiliser ce caractère générique * pour définir les paramètres de correspondance. Dans des circonstances normales, l'une des caractéristiques des URL dynamiques est qu'il y a un « ? ». À ce stade, nous pouvons utiliser cette fonctionnalité pour effectuer un blocage de correspondance :

Agent utilisateur : *

Interdire : /*?*

5. Si le site Web est révisé et que le dossier entier a disparu, dans ce cas, vous devriez envisager de bloquer l'intégralité du dossier. Nous pouvons utiliser des robots pour bloquer l'intégralité du dossier. Par exemple, le dossier ab du site Web a été supprimé en raison d'une révision. Dans ce cas, il peut être défini comme ceci :

Agent utilisateur : *

Interdire : /ab/

6. S'il existe un dossier sur le site Web que vous ne souhaitez pas inclure, mais que ce dossier contient des informations qui peuvent être incluses. Ensuite, vous pouvez utiliser l'autorisation des robots pour le définir. Par exemple, le dossier ab de mon site Web ne peut pas être exploré par les moteurs de recherche, mais il existe un CD d'informations dans le dossier ab qui peut être exploré. À ce stade, vous pouvez utiliser des robots pour le définir :

Agent utilisateur : *

Interdire : /ab/

Autoriser :/ab/cd

7. L'emplacement du plan du site peut être défini dans les robots, ce qui est bénéfique pour l'inclusion du site Web.

plan du site :<emplacement du plan du site>

8. Parfois, vous constaterez que des robots sont installés sur mon site Web, mais vous constatez également qu'il inclut cette adresse URL. La raison en est que l'araignée de ce moteur de recherche explore généralement la page Web via l'URL. Des URL comme celle-ci. Il n'y a pas de titre ni de description, mais lorsque Baidu explore cette URL, cela apportera le titre et la description, donc beaucoup de gens diront que j'ai configuré des robots mais cela n'a aucun effet. La situation réelle est que le lien est exploré mais que le contenu de la page n'est pas inclus.

La page d'accueil du site Web a le poids le plus élevé, et le poids est transféré par des liens. Nous avons mis en place des robots pour mieux transférer le poids vers les pages qui doivent avoir un poids élevé, et certaines pages n'ont pas besoin d'être explorées et explorées par la recherche. moteurs de.

Rédacteur en chef : Chen Long Auteur︶ Espace personnel de Shitou Peng