Eine kurze Diskussion darüber, wie man eine robots.txt-Datei zur Website-Optimierung schreibt

Autor：Eve Cole Aktualisierungszeit：2012-02-25 15:18:10

Freunde haben mehr oder weniger davon gehört oder sie haben es möglicherweise selbst geschrieben. Tatsächlich habe ich bisher noch keine robots.txt-Datei geschrieben. Es ist nicht so, dass ich sie nicht schreiben kann. Ich habe nur das Gefühl, dass es nichts in dem Blog gibt, das vor dem Crawlen durch Spinnen geschützt werden muss. Und jeder muss auch wissen, dass die Wahrscheinlichkeit toter Links in einem persönlichen unabhängigen Blog sehr gering sein sollte und es keinen Grund gibt, sich zu sehr mit toten Links auseinanderzusetzen, daher halte ich das nicht für notwendig. Die Methode zum Schreiben von robots.txt-Dateien gehört jedoch zu den Fähigkeiten, die einzelne Webmaster beherrschen müssen, und ihre Einsatzmöglichkeiten sind immer noch sehr vielfältig. Hier finden Sie eine ausführliche Einführung, die als Rezension für sich selbst betrachtet werden kann.

Was ist eine robots.txt-Datei?

Dem Dateinamen nach zu urteilen, hat es das Suffix .txt. Sie sollten auch wissen, dass es sich um eine Textdatei handelt, nämlich Notepad. „Roboter“, das sollten alle wissen, die etwas Englisch können. Für uns stellt dieser Roboter einen Suchmaschinenroboter dar. Aus dem Namen lässt sich schließen, dass diese Datei von uns speziell zum Lesen durch Spinnen geschrieben wurde. Seine Funktion besteht darin, dem Spider mitzuteilen, dass diese Spalten oder Seiten nicht gecrawlt werden müssen. Natürlich kann er auch den Zugriff eines bestimmten Spiders direkt blockieren. Beachten Sie, dass diese Datei im Stammverzeichnis der Website abgelegt wird, um sicherzustellen, dass der Spider den Dateiinhalt so schnell wie möglich lesen kann.

Die Rolle von Roboterdateien

Tatsächlich wird die Robots-Datei von uns am häufigsten verwendet, um tote Links innerhalb der Website zu blockieren. Jeder sollte wissen, dass zu viele tote Links auf einer Website das Gewicht der Website beeinträchtigen. Obwohl es nicht mühsam ist, die toten Links auf der Website zu bereinigen, nimmt es dennoch viel Zeit in Anspruch. Insbesondere wenn es viele tote Links auf der Website gibt, wird es zu diesem Zeitpunkt sehr mühsam sein Der Nutzen der Robots-Datei wird angezeigt. Wir können diese toten Links entsprechend dem Format direkt in Dateien schreiben, um das Crawlen durch Spider zu verhindern. Wenn Sie sie bereinigen möchten, können Sie sie in Zukunft langsam bereinigen. Einige Website-Inhalte enthalten URLs oder Dateien, die Webmaster nicht crawlen sollen, und sie können auch direkt blockiert werden. Zur Abschirmung von Spinnen werden sie im Allgemeinen seltener eingesetzt.

So schreiben Sie eine Robots-Datei

Dieser Punkt sollte wichtiger sein. Wenn Sie etwas falsch schreiben und versuchen, es zu blockieren, aber scheitern, wenn Sie aber etwas schreiben, das erfasst werden soll, und Sie es nicht rechtzeitig finden können, werden Sie einen großen Verlust erleiden. Zunächst müssen wir die beiden Tags „Zulassen“ und „Nicht zulassen“ kennen. Das eine ist erlaubt und das andere ist nicht erlaubt. Jeder kann seine Funktion verstehen.

Benutzeragent: *

Nicht zulassen:

oder

Benutzeragent: *

Erlauben:

Diese beiden Inhaltsabsätze weisen darauf hin, dass alles gecrawlt werden darf. Tatsächlich wird das Disallow-Tag zum Blockieren von URLs und Dateien verwendet, es sei denn, Ihre Website enthält nur wenige, die gecrawlt werden sollen, und verwendet das Allow-Tag. Auf diesen User-Agent folgt der Spider-Name. Jeder sollte mit den Spider-Namen der gängigen Suchmaschinen vertraut sein. Nehmen wir als Beispiel Soso Spider: Sosospider.

Wenn wir Soso Spider blockieren wollen:

Benutzeragent: sosospider

Nicht zulassen: /

Sie können feststellen, dass diese Abschirmungsspinne im Vergleich zu der oben genannten Berechtigung nur noch ein „/“ hat und sich ihre Bedeutung dramatisch geändert hat. Daher müssen Sie beim Schreiben vorsichtig sein und Sie können die Spinne selbst nicht blockieren, nur weil Sie ein Extra schreiben Schrägstrich. Aber ich weiß es nicht. Außerdem im Benutzeragenten: Wenn der Spider-Name gefolgt von „*“ festgelegt ist, bedeutet dies, dass er für alle Spider gilt.

Um zu verhindern, dass ein Verzeichnis von Suchmaschinen-Spidern gecrawlt wird, lautet der Einstellungscode wie folgt:

Benutzeragent: *

Nicht zulassen: /directory/

Beachten Sie, dass Sie, wenn Sie das Crawlen eines Verzeichnisses verhindern möchten, auf „/“ im Verzeichnisnamen achten müssen. Ohne „/“ bedeutet dies, dass der Zugriff auf diese Verzeichnisseite und die Seiten unter dem Verzeichnis blockiert ist, und mit „. /“ bedeutet das Betreten des gesperrten Verzeichnisses. Auf der Inhaltsseite unten müssen diese beiden Punkte klar unterschieden werden. Wenn Sie mehrere Verzeichnisse blockieren möchten, müssen Sie verwenden

Benutzeragent: *

Nicht zulassen: /directory1/

Nicht zulassen: /directory2/

Dieses Formular darf nicht die Form /Verzeichnis 1/Verzeichnis 2/ haben.

Wenn Sie verhindern möchten, dass Spider auf einen bestimmten Dateityp zugreifen, um beispielsweise das Crawlen von Bildern im JPG-Format zu verhindern, können Sie Folgendes festlegen:

Benutzeragent: *

Nicht zulassen: .jpg$

Das Obige ist die Schreibmethode von Shanghai SEO Xiaoma für die Robots-Datei der gesamten Website. Es geht nur um die Arten und Vorsichtsmaßnahmen der Robots-Schreibmethode. Spezifische Schreibmethoden wie gezielte Spider-Blockierung oder andere Schreibmethoden werden etwas weniger beschrieben , aber Sie kennen die Bedeutung von „erlauben“ und „verbieten“. Wenn Sie darüber nachdenken, können Sie viele andere Bedeutungen des Schreibens ableiten. Es gibt auch Möglichkeiten, Robots-Meta-Webseiten-Tags für bestimmte Webseiten zu schreiben, aber im Allgemeinen werden nicht viele davon verwendet.

Das Obige wurde von Shanghai SEO Pony http://www.mjlseo.com/ zusammengestellt. Bitte geben Sie es beim Nachdruck an, vielen Dank

Chefredakteur: Persönlicher Bereich der Yangyang-Autorin Xiaoma Laoma