Ich habe vor langer Zeit versprochen, einen Artikel für Ah Bin zu schreiben, aber ich habe ihn bis jetzt nicht geschrieben. Vor ein paar Tagen habe ich gesehen, wie Zhuo Shao eine Frage zu Robotern gestellt hat es für alle. Lassen Sie uns über einige Situationen von Robotern sprechen. Die robots.txt-Datei wird im Stammverzeichnis der Website abgelegt und ist die erste Datei, die Suchmaschinen beim Zugriff auf die Website anzeigen. Wenn ein Such-Spider eine Site besucht, prüft er zunächst, ob robots.txt im Stammverzeichnis der Site vorhanden ist. Wenn dies der Fall ist, bestimmt der Such-Roboter den Zugriffsbereich anhand des Inhalts der Datei nicht vorhanden, alle Die Suchspider können auf alle Seiten der Website zugreifen, die nicht passwortgeschützt sind. Jede Website sollte über einen Roboter verfügen, der Suchmaschinen mitteilt, welche Dinge auf meiner Website nicht gecrawlt werden dürfen und welche Seiten gerne gecrawlt und gecrawlt werden dürfen.
Mehrere Funktionen von Robotern:
1. Blockieren Sie das Crawlen von Informationen durch alle Suchmaschinen. Wenn es sich bei Ihrer Website nur um Ihre private Website handelt und Sie nicht möchten, dass zu viele Menschen davon erfahren, können Sie mithilfe von Robots alle Suchmaschinen blockieren, beispielsweise einen privaten Blog, den Sie schreiben. Sie können alle Suchmaschinen blockieren
Benutzeragent: *
Nicht zulassen: /
2. Wenn Sie möchten, dass nur eine bestimmte Suchmaschine Ihre Informationen crawlt, können Sie dies zu diesem Zeitpunkt mithilfe von Robots einrichten. Beispiel: Ich möchte nur, dass meine Website in Baidu aufgenommen wird, andere Suchmaschinen jedoch nicht. Für die Einrichtung können Sie Roboter einsetzen
Benutzeragent: Baiduspider
Erlauben:
Benutzeragent: *
Nicht zulassen: /
3. Sie können verschiedene Platzhalter verwenden, um die Website entsprechend zu konfigurieren. Wenn ich beispielsweise nicht möchte, dass die Website alle meine Bilder crawlt, kann ich sie mit $ einrichten. Im Allgemeinen sind unsere gängigen Bildformate BMP, JPG, GIF, JPEG und andere Formate. Die Einstellungen sind derzeit:
Benutzeragent: *
Nicht zulassen: /.bmp$
Nicht zulassen: /.jpg$
Nicht zulassen: /.gif$
Nicht zulassen: /.jpeg$
4. Sie können * auch verwenden, um verwandte URLs zu blockieren. Wenn einige Websites das Crawlen dynamischer Adressen durch Suchmaschinen nicht zulassen, können Sie diesen Platzhalter * verwenden, um entsprechende Einstellungen festzulegen. Unter normalen Umständen besteht eines der Merkmale dynamischer URLs darin, dass es ein „?“ gibt. Zu diesem Zeitpunkt können wir diese Funktion verwenden, um eine Matching-Blockierung durchzuführen:
Benutzeragent: *
Nicht zulassen: /*?*
5. Wenn die Website überarbeitet wird und der gesamte Ordner nicht mehr vorhanden ist, sollten Sie in diesem Fall darüber nachdenken, den gesamten Ordner zu sperren. Wir können Roboter verwenden, um den gesamten Ordner zu blockieren. Der Ordner „ab“ auf der Website wurde beispielsweise aufgrund einer Überarbeitung gelöscht. In diesem Fall kann dies wie folgt festgelegt werden:
Benutzeragent: *
Nicht zulassen: /ab/
6. Wenn es auf der Website einen Ordner gibt, den Sie nicht einbinden möchten, sich in diesem Ordner jedoch Informationen befinden, die eingebunden werden dürfen. Dann können Sie die Erlaubnis von Robotern nutzen, um es einzustellen. Beispielsweise darf der AB-Ordner auf meiner Website nicht von Suchmaschinen gecrawlt werden, aber im AB-Ordner befindet sich eine Informations-CD, die gecrawlt werden darf. Zu diesem Zeitpunkt können Sie ihn mithilfe von Robotern festlegen:
Benutzeragent: *
Nicht zulassen: /ab/
Erlauben:/ab/cd
7. Der Standort der Sitemap kann in Robots definiert werden, was der Einbindung der Website zugute kommt.
sitemap:<Sitemap-Speicherort>
8. Manchmal werden Sie feststellen, dass auf meiner Website Robots eingerichtet sind, aber auch, dass diese URL-Adresse enthalten ist. Der Grund dafür ist, dass der Spider dieser Suchmaschine im Allgemeinen über die URL crawlt URLs wie diese haben keinen Titel und keine Beschreibung, aber wenn Baidu diese URL crawlt, werden der Titel und die Beschreibung angezeigt. Daher werden viele Leute sagen, dass ich einen Roboter eingerichtet habe, aber das hat keine Wirkung. Die tatsächliche Situation ist, dass der Link gecrawlt wird, der Inhalt der Seite jedoch nicht enthalten ist.
Die Homepage der Website hat das höchste Gewicht, und das Gewicht wird durch Links übertragen. Wir richten Roboter ein, um das Gewicht besser auf die Seiten zu übertragen, die ein hohes Gewicht haben müssen, und einige Seiten müssen nicht durch die Suche gecrawlt werden Motoren.
Verantwortlicher Herausgeber: Chen Long Autor︶ Shitou Pengs persönlicher Bereich