Im FTP vieler Websites finden Sie nur eine robots.txt-Datei, die den Spider-Zugriff einschränkt. Lassen Sie uns gemeinsam lernen.
Was ist eine Robots-Datei? Diese Datei ist eine Kommunikationsbrücke zwischen Suchmaschinen und Websites. Es handelt sich um eine zwischen beiden vereinbarte Syntaxdatei. Jedes Mal, wenn eine Suchmaschine eine Website crawlt, überprüft sie diese Datei zunächst, genau wie den Schlüssel dazu Tür. Das Gleiche. Wenn diese Datei nicht vorhanden ist, bedeutet dies, dass das Crawlen durch Suchmaschinen nicht eingeschränkt ist. Wenn diese Datei vorhanden ist, wird sie gemäß den in der Datei angegebenen Anforderungen gecrawlt. Einige Webmaster fragen sich vielleicht: Wenn wir eine Website erstellen, muss sie unbedingt von Suchmaschinen indiziert werden. Warum sollten wir also das Crawling einschränken? Website, die Sie gesammelt haben, oder ähnliche Seiten ohne wesentlichen Inhalt, dann wird die Bewertung Ihrer Website nach dem Crawlen durch die Suchmaschine stark reduziert, und es wird keinen SEO-Effekt haben. Die Robots-Datei kann dies jedoch erkennen Sehen Sie, auf welche Seiten es nicht gehen soll, es reduziert indirekt auch die Belastung des Servers.
Zu dieser Datei sind mehrere Dinge zu beachten:
1. Der Dateiname darf nicht falsch geschrieben werden und muss aus Kleinbuchstaben bestehen. Das Suffix muss .txt sein.
2. Die Datei muss im Stammverzeichnis der Website abgelegt werden, zum Beispiel: http://www.taofengyu.com/robots.txt , und muss zugänglich sein.
3. Die Syntax des Dateiinhalts muss korrekt sein. Im Allgemeinen werden User-Agent und Disallow verwendet:
User-Agent:* bedeutet, dass alle Suchmaschinen-Spider crawlen und einbinden dürfen. Wenn Sie nicht möchten, dass Baidu Ihre Website einbindet, ersetzen Sie * durch „baiduspider“, dann wird der durch Disallow eingeschränkte Inhalt von Baidu nicht gecrawlt und eingebunden Spinnen. Wenn Sie das Crawlen der gesamten Site einschränken möchten, muss die Disallow-Datei als „Disallow:/“ geschrieben werden. Wenn Sie das Crawlen der Dateien in einem bestimmten Ordner einschränken möchten, schreiben Sie sie als „Disallow:/admin“. /". Wenn Sie das Crawlen von Dateien einschränken möchten, die mit admin beginnen, schreiben Sie „Disallow:/admin" usw. Sie möchten das Crawlen von Dateien in einem bestimmten Ordner einschränken. Sie möchten beispielsweise das Crawlen von einschränken index.htm-Datei im Admin-Ordner, dann wird die Disallow-Syntax als „Disallow:/admin/index.htm“ geschrieben. Wenn nach Disallow kein „/“ steht, bedeutet dies, dass alle Seiten der Website gecrawlt und eingebunden werden dürfen.
Im Allgemeinen ist es nicht erforderlich, dass Spider die Hintergrundverwaltungsdateien, Programmfunktionen, Datenbankdateien, Stylesheet-Dateien, Vorlagendateien, einige Bilder der Website usw. crawlen.
4. Die Disallow-Funktion muss in der Robots-Datei vorhanden sein, was ein Schlüsselfaktor für die Einrichtung dieser Datei ist.
Hier geht es um die Bedeutung und Methoden von Roboterdateien. Ich hoffe, dass sie für alle von Nutzen sein können.
Der Artikel stammt vom Taofengyu Student Supplies Network http://www.taofengyu.com/. Bitte geben Sie beim Nachdruck die Quelle an und respektieren Sie die Arbeit des Autors.
Der persönliche Bereich des Autors für Kinderspielzeug auf Taobao