Webmaster dürfen den Einsatz von Robotern nicht ignorieren

Autor：Eve Cole Aktualisierungszeit：2012-02-25 15:17:34

Ich habe die Optimierung von Details immer betont. Die aktuellen Anforderungen von Baidu an Websites bestehen darin, zu sehen, ob Ihre Details gut sind. Daher sind Roboter auch Teil der Details der Website Nun, die Website ist eine große Hilfe. Es gibt möglicherweise viele neue Webmaster, die nicht wissen, was Robots ist.

1. Der Ursprung von Robots.txt

Wir müssen zunächst verstehen, dass Robots kein Befehl oder eine Anweisung zwischen einer Website und einer Suchmaschine ist. Der Inhalt der Vereinbarung ist der Inhalt in Robots.txt Datenschutz auf Websites. Es befindet sich in unserer A-txt-Datei im Stammverzeichnis der Website.

2. Die Rolle von Robots.txt

Wenn wir unsere Website starten, werden von Suchmaschinen viele unwiderstehliche Faktoren freigesetzt, die zu einer allgemeinen Verschlechterung der Qualität unserer Webseiten und einem schlechten Eindruck unserer Website bei Suchmaschinen führen. Die Rolle von Robotern besteht darin, diese zu blockieren Unwiderstehliche Faktoren verhindern, dass Spinnen sie freigeben. Welche Seiten sollten wir also blockieren?

1. Blockieren Sie einige Seiten ohne Inhalt: Ich gebe Ihnen zur Verdeutlichung ein Beispiel, z. B.: Registrierungsseite, Anmeldeseite, Einkaufsseite, Beitragsseite, Nachrichtenseite, Startseite für die Suche. Wenn Sie eine 404-Fehlerseite haben, sind Sie sollte es auch blockieren.

2. Blockieren Sie doppelte Seiten: Wenn wir feststellen, dass unsere Website zwei Seiten mit demselben Inhalt, aber unterschiedlichen Pfaden hat, müssen wir eine Seite mithilfe von Robotern blockieren. Der Spider wird sie zwar crawlen, sie jedoch nicht freigeben Tools zum Blockieren der Seite. Überprüfen Sie direkt die Anzahl der blockierten Seiten.

3. Blockieren Sie einige Seiten mit toten Links

Wir müssen nur die Seiten mit gemeinsamen Merkmalen blockieren. Die Tatsache, dass Spider sie nicht crawlen können, bedeutet nicht, dass Spider die Adresse nicht crawlen können und ob sie gecrawlt werden kann Wir müssen tote Links nicht blockieren, zum Beispiel müssen wir tote Links blockieren, die durch unseren Pfad verursacht werden.

4. Blockieren Sie einige längere Pfade: Wir können Roboter verwenden, um lange Pfade zu blockieren, die über das URL-Eingabefeld hinausgehen.

3. Verwendung von Robots.txt

1. Erstellung von Robots.txt

Erstellen Sie lokal eine neue Notepad-Datei, nennen Sie sie Robots.txt und legen Sie diese Datei dann in unserem Stammverzeichnis ab, damit unsere Robots.txt erstellt wird. Einige Open-Source-Programme wie Dreamweaver werden mit Robots geliefert Sie müssen es nur aus dem Stammverzeichnis herunterladen.

2. Gemeinsame Grammatik

Die User-Agent-Syntax wird zum Definieren von Suchmaschinen-Crawlern verwendet. Nicht zulassen bedeutet verboten. Erlauben bedeutet erlaubt.

Lernen wir zunächst die Suchmaschinen-Crawler kennen, bei denen es sich um Spider oder Robots handelt.

Für Baidu Spider schreiben wir Baiduspider in Robots und für Google Robot schreiben wir Googlebot.

Lassen Sie uns die Schreibmethode vorstellen. Unsere erste Zeile besteht darin, zuerst die Suchmaschine zu definieren.

Benutzeragent: Baiduspider (Besonderes Augenmerk sollte darauf gelegt werden, dass beim Schreiben von Robotern nach dem Doppelpunkt ein Leerzeichen stehen muss. Wenn wir gleichzeitig alle Suchmaschinen definieren möchten, müssen wir * anstelle von Baiduspider verwenden )

Nicht zulassen: /admin/

Die Bedeutung dieses Satzes besteht darin, Baidu Spider anzuweisen, die Webseiten nicht in den Admin-Ordner meiner Website aufzunehmen. Wenn wir den Schrägstrich nach „admin“ entfernen, bedeutet dies, dass Baidu Spider angewiesen wird, die Seiten nicht in den Admin-Ordner aufzunehmen Ordner meiner Website. Alle Webseiten im Admin-Ordner in meinem Stammverzeichnis.

Zulassen bedeutet im Allgemeinen, dass es nicht allein verwendet werden soll. Der Zweck der gemeinsamen Verwendung besteht darin, die Verzeichnisabschirmung und flexible Anwendungen zu erleichtern und die Verwendung von Code zu reduzieren Nehmen wir an, es gibt 100.000 Dateien im SEO/-Ordner, und es gibt zwei Dateien, die gecrawlt werden müssen. Wir können nicht Zehntausende Codes schreiben, was sehr ermüdend sein wird zusammen.

User-Agent: *(definiert alle Suchmaschinen)

Disallow: /seo/ (deaktiviert die Einbeziehung von SEO-Ordnern)

Erlauben: /seo/ccc.php

Zulassen: /seo/ab.html

Dadurch können diese beiden Dateien gleichzeitig erfasst und eingebunden werden, sodass wir das Problem mit vier Codezeilen lösen können. Einige Leute fragen sich möglicherweise, ob es standardisierter ist, Disallow an den Anfang oder Allow an den Anfang zu setzen, oder ob Disallow wird vorne platziert.

Dieser Artikel wurde ursprünglich von http://www.51diaoche.net erstellt. Nachdruck ist erwünscht.

Chefredakteur: Persönlicher Bereich des Yangyang-Autors Longfeng Hoisting Machinery