Fichier Robots.txt, des amis en ont plus ou moins entendu parler, ou ils l'ont peut-être écrit eux-mêmes. En fait, je n'ai pas écrit de fichier robots.txt moi-même jusqu'à présent. Ce n'est pas que je ne peux pas l'écrire, j'ai juste l'impression qu'il n'y a rien dans le blog qui doit être empêché d'être exploré par les araignées. Et tout le monde doit aussi savoir que la probabilité d'avoir des liens morts dans un blog personnel indépendant devrait être très faible, et qu'il n'est pas nécessaire de trop s'occuper des liens morts, donc je ne pense pas que ce soit nécessaire. Cependant, la méthode d’écriture du fichier robots.txt fait partie des compétences que chaque webmaster doit maîtriser, et ses utilisations sont encore très larges. Voici une introduction détaillée, qui peut être considérée comme une critique par vous-même.
Qu'est-ce que le fichier robots.txt
À en juger par le nom du fichier, il porte le suffixe .txt. Vous devez également savoir qu'il s'agit d'un fichier texte, qui est le Bloc-notes. Robots, ceux qui connaissent un peu l'anglais devraient tous le savoir, signifie robot. Pour nous, ce robot représente un robot de moteur de recherche. D'après son nom, vous pouvez deviner que ce fichier est spécialement écrit par nous pour être lu par les araignées. Sa fonction est d'indiquer à l'araignée que ces colonnes ou pages n'ont pas besoin d'être explorées. Bien entendu, il peut également bloquer directement l'accès d'une certaine araignée. Notez que ce fichier est placé dans le répertoire racine du site Web pour garantir que l'araignée puisse lire le contenu du fichier dès que possible.
Le rôle des fichiers robots
En fait, nous utilisons le plus souvent le fichier robots pour bloquer les liens morts au sein du site Web. Tout le monde doit savoir que trop de liens morts sur un site internet affecteront le poids du site. Cependant, même s'il n'est pas difficile de nettoyer les liens morts sur le site Web, cela prend quand même beaucoup de temps. Surtout s'il y a de nombreux liens morts sur le site Web, il sera très laborieux de nettoyer le site. L'utilité du fichier robots sera reflétée. Nous pouvons directement écrire ces liens morts dans des fichiers selon le format pour empêcher les araignées de les explorer, vous pouvez les nettoyer lentement à l'avenir. Certains contenus de sites Web contiennent des URL ou des fichiers que les webmasters ne souhaitent pas que les robots explorent, et ils peuvent également être bloqués directement. Pour protéger les araignées, elles sont généralement moins utilisées.
Comment écrire un fichier robots
Ce point devrait être plus important. Si vous écrivez quelque chose de mal et essayez de le bloquer mais que vous échouez, mais si vous écrivez quelque chose que vous souhaitez capturer et que vous ne pouvez pas le trouver à temps, vous subirez une grosse perte. Tout d'abord, nous devons connaître les deux balises, Allow et Disallow, l'une est autorisée et l'autre n'est pas autorisée. Tout le monde peut comprendre sa fonction.
Agent utilisateur : *
Refuser:
ou
Agent utilisateur : *
Permettre:
Ces deux paragraphes de contenu indiquent que tout peut être exploré. En fait, la balise Disallow est utilisée pour bloquer les URL et les fichiers, à moins que votre site Web n'en contienne que quelques-uns que vous souhaitez explorer et utilise la balise Autoriser. Cet agent utilisateur : est suivi du nom de l'araignée. Tout le monde devrait être familier avec les noms d'araignées des moteurs de recherche traditionnels. Prenons comme exemple Soso Spider : Sosospider.
Quand on veut bloquer Soso Spider :
Agent utilisateur : sosospider
Interdire : /
Vous pouvez constater que par rapport à l'autorisation ci-dessus, cette araignée de protection n'a qu'un "/" de plus, et sa signification a radicalement changé. Par conséquent, vous devez être prudent lorsque vous écrivez, et vous ne pouvez pas bloquer l'araignée elle-même simplement parce que vous écrivez un supplément. barre oblique. Mais je ne sais pas. Aussi, dans user-agent : si le nom du spider suivi de "*" est corrigé, cela signifie qu'il s'applique à tous les spiders.
Pour interdire qu'un répertoire soit exploré par les robots des moteurs de recherche, le code de paramètre est le suivant :
Agent utilisateur : *
Interdire : /répertoire/
Notez que si vous souhaitez empêcher l'exploration d'un répertoire, vous devez faire attention au "/" dans le nom du répertoire. Sans "/", cela signifie que l'accès à cette page du répertoire et aux pages sous le répertoire est bloqué, et avec ". /", cela signifie entrer dans le répertoire bloqué. Sur la page de contenu ci-dessous, ces deux points doivent être clairement distingués. Si vous souhaitez bloquer plusieurs répertoires, vous devez utiliser
Agent utilisateur : *
Interdire : /répertoire1/
Interdire : /répertoire2/
Ce formulaire ne peut pas être sous la forme /répertoire 1/répertoire 2/.
Si vous souhaitez empêcher les robots d'accéder à un certain type de fichier, par exemple pour empêcher l'exploration d'images au format .jpg, vous pouvez le définir sur :
Agent utilisateur : *
Interdire : .jpg$
Ce qui précède est la méthode d'écriture de Shanghai SEO Xiaomi pour l'ensemble du fichier robots. Il ne parle que des types et des précautions de la méthode d'écriture des robots. Il y a un peu moins de description des méthodes d'écriture spécifiques telles que le blocage ciblé des araignées ou d'autres méthodes d'écriture. , mais vous connaissez la signification d'autoriser et d'interdire. En y réfléchissant, vous pouvez dériver de nombreuses autres significations de l'écriture. Il existe également des moyens d'écrire des balises méta-pages Web de robots pour des pages Web spécifiques, mais généralement peu sont utilisées.
Ce qui précède est compilé par Shanghai seo pony http://www.mjlseo.com/ , veuillez l'indiquer lors de la réimpression, merci
Rédacteur en chef : espace personnel de l'auteur de Yangyang, Xiaoma Laoma