La dernière découverte est que Baidu Spider est un imbécile ! Récemment, j'ai découvert que l'inclusion du site Web par Baidu était très lente. En fait, je prends un nouvel instantané de la page d'accueil après quelques jours, et les autres pages ne sont pratiquement pas incluses ! déprimant ! Ouvrez le journal IIS du site Web et vérifiez-le. J'ai téléchargé Baidu Spider et j'ai été choqué. J'ai fait une découverte majeure : Baidu Spider est vraiment un imbécile !
1. Voyons d'abord à quel point Baidu Spider est si stupide. Ce qui suit est le relevé d'activité de Baidu Spider sur mon site Web.
1. 2009-06-03 21:26:05 W3SVC962713505 218.60.130.19 GET /robots.txt - 80 - 123.125.64.15 Baiduspider+(+http://www.baidu.com/search/spider.htm) 404 0 64 ( Remarque : 404 indique que le fichier robots.txt est introuvable)
2. 2009-06-03 21:26:49 W3SVC962713505 218.60.130.19 GET /index.asp - 80 - 123.125.64.15 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 64 ( Remarque : 200 indique que le fichier de la page d'accueil index.asp a été trouvé)
On peut voir que les activités de l'araignée Baidu se rendent d'abord sur le site Web pour trouver le fichier robots.txt. S'il n'existe pas, recherchez la page d'accueil index.asp du site Web après l'avoir comparée à la page d'accueil actuellement incluse dans Baidu. , on constate qu'il n'y a aucun changement par rapport à l'original, puis s'en va. Comme la plupart des webmasters, qui ne souhaite pas mettre à jour de temps en temps les instantanés des pages incluses dans Baidu ? Il semble que la seule façon de compléter le fichier robots.txt soit d’amener les robots Baidu à parcourir mon site ?
2. Écrivez robots.txt et emmenez Baidu parcourir votre site.
robots.txt Ce fichier doit être écrit. Savez-vous tous comment l’écrire spécifiquement ? Sinon, je le répéterai.
Exemple 1. Empêcher tous les moteurs de recherche d'accéder à n'importe quelle partie du site Web
Agent utilisateur : *
Interdire : /
Exemple 2. Autoriser tous les robots à accéder
(Ou vous pouvez également créer un fichier vide "/robots.txt")
Agent utilisateur : *
Refuser:
ou
Agent utilisateur : *
Permettre: /
(Remarque du tableau : ceci est nécessaire. Ne créez pas de fichier vide. C'est Baidu qui fume. Il est préférable d'écrire la phrase suivante.)
Exemple 3. Interdire uniquement à Baiduspider d'accéder à votre site Web
Agent utilisateur : Baiduspider
Interdire : /
Exemple 4. Autoriser uniquement Baiduspider à accéder à votre site Web
Agent utilisateur : Baiduspider
Refuser:
Agent utilisateur : *
Interdire : /
Exemple 5. Interdire aux robots d'accéder à des répertoires spécifiques
Dans cet exemple, le site Web dispose de trois répertoires qui restreignent l’accès aux moteurs de recherche, c’est-à-dire que le robot n’accédera pas à ces trois répertoires. Il convient de noter que chaque répertoire doit être déclaré séparément et ne peut pas être écrit sous la forme "Disallow: /cgi-bin/ /tmp/".
Agent utilisateur : *
Interdire : /cgi-bin/
Interdire : /tmp/
Interdire : /~joe/
Exemple 6. Autoriser l'accès à certaines URL dans un répertoire spécifique
Agent utilisateur : *
Autoriser : /cgi-bin/see
Autoriser : /tmp/hi
Autoriser : /~joe/look
Interdire : /cgi-bin/
Interdire : /tmp/
Interdire : /~joe/
Exemple 7. Utilisez "*" pour restreindre l'accès aux URL
L'accès à toutes les URL avec le suffixe ".htm" (y compris les sous-répertoires) du répertoire /cgi-bin/ est interdit.
Agent utilisateur : *
Interdire : /cgi-bin/*.htm
Exemple 8. Utilisez "$" pour restreindre l'accès aux URL
Seules les URL portant le suffixe ".htm" sont accessibles.
Agent utilisateur : *
Autoriser : .htm$
Interdire : /
Exemple 9. Désactiver l'accès à toutes les pages dynamiques du site Web
Agent utilisateur : *
Interdire : /*?*
Exemple 10. Interdire à Baiduspider d'explorer toutes les images du site Web
Seules les pages Web peuvent être explorées, aucune image n'est autorisée à être explorée.
Agent utilisateur : Baiduspider
Interdire : .jpg$
Interdire : .jpeg$
Interdire : .gif$
Interdire : .png$
Interdire : .bmp$
Exemple 11. Autoriser uniquement Baiduspider à explorer les pages Web et les images au format .gif
Il est permis de capturer des pages Web et des images au format GIF, mais il n'est pas autorisé de capturer des images dans d'autres formats.
Agent utilisateur : Baiduspider
Autoriser : .gif$
Interdire : .jpg$
Interdire : .jpeg$
Interdire : .png$
Interdire : .bmp$
Exemple 12. Interdire uniquement à Baiduspider de récupérer des images au format .jpg
Agent utilisateur : Baiduspider
Interdire : .jpg$
Jetez un œil au robots.txt écrit par la table elle-même, pour votre référence
Copier le code
Agent utilisateur : *
Interdire : /admin/
Interdire : /Soft/
Autoriser : /images/
Autoriser : /html/
Autoriser : .htm$
Autoriser : .php$
Autoriser : .asp$
Autoriser : .gif$
Autoriser : .jpg$
Autoriser : .jpeg$
Autoriser : .png$
Autoriser : .bmp$
Permettre: /
expliquer:
1. Autoriser l'indexation par différents moteurs de recherche
2. Désactivez l'indexation du répertoire /admin Il s'agit du backend du site Web. Bien entendu, c'est interdit.
3. Désactivez les répertoires de sécurité importants tels que /soft
4. Autoriser l'accès au répertoire /images
5. Autoriser l'accès au répertoire /html
6. Autoriser l'accès à tous les fichiers htm, php, asp, html
7. Permet de saisir des images aux formats gif, jpg, jpeg, png, bmp
8. Permet l'exploration des fichiers dans le répertoire racine du site Web.
D'accord, téléchargez votre robots.txt sur le site Web et le répertoire et attendez que Baidu Spider revienne. Le moment venu, ce bon guide emmènera cet idiot à votre gare et se promènera. L'auteur de cet article est collecté et publié par le réseau de vente en gros de vêtements de commerce extérieur MOFHOT www.mofhot.com Veuillez laisser un lien en A5. Merci ~ Ce n'est pas facile de publier un article.