Die Robots.txt-Datei ist ein einfacher TXT-Text, aber SEO-Experten, die sich auf die Erstellung und Optimierung von Websites konzentrieren, wissen um ihre Bedeutung. Ihre Existenz kann Seiten blockieren, die von Suchmaschinen nicht gecrawlt werden sollen, oder sie kann wie ein Bild sein Die Karte weist auch Spinnen den Weg. Wenn ein Spider zu einer Site kriecht, greift er zunächst darauf zu, ob die Datei Robots.txt vorhanden ist, und führt dann einen Indexzugriff gemäß den Richtlinien im Inhalt durch. Wenn die Datei nicht vorhanden ist, greift er der Reihe nach darauf zu die Links auf der Seite. Daher können wir damit einige Verzeichnisse blockieren, die nicht von Suchmaschinen indiziert werden müssen, oder die Sitemap in Robots.txt beschreiben, um Spiders beim Crawlen anzuleiten. Dies ist sehr wirkungsvoll für die Website-Sicherheit oder das Einsparen von Serverbandbreite und die Steuerung der Indizierung Man kann sagen, dass es den Effekt erzielt hat, die eigenen Stärken zu fördern und die eigenen Schwächen zu vermeiden. Lassen Sie uns unten eine detaillierte Analyse durchführen:
1. Verwenden Sie Robots.txt, um Serverbandbreite zu sparen
Im Allgemeinen nehmen Webmaster eine solche Einstellung selten vor. Wenn der Server jedoch eine große Anzahl von Besuchen und zu viel Inhalt hat, ist es notwendig, eine Einstellung vorzunehmen, um die Bandbreite des Servers zu schonen, z. B. das Blockieren von Ordnern wie:image Nützlich für die Indexierung durch Suchmaschinen. Es hat keine praktische Bedeutung und verschwendet viel Bandbreite. Bei einer Bilder-Website ist der Verbrauch sogar noch gewaltiger, so dass die Verwendung von Robots.txt dieses Problem vollständig lösen kann.
2. Schützen Sie das Sicherheitsverzeichnis der Website
Im Allgemeinen müssen beim Einrichten von Robots.txt das Verwaltungsverzeichnis, die Datenbank und das Sicherungsverzeichnis festgelegt werden, um das Crawlen durch Spider zu verhindern. Andernfalls kann es leicht zu Datenlecks kommen, die die Sicherheit der Website beeinträchtigen. Natürlich gibt es auch andere Verzeichnisse, die der Administrator nicht von Spidern indizieren lassen möchte. Diese können ebenfalls festgelegt werden, sodass Suchmaschinen diese Regel bei der Indizierung strikt einhalten können.
3. Verhindern Sie, dass Suchmaschinen die Seite indizieren
Es gibt immer einige Seiten auf einer Website, die die Öffentlichkeit nicht sehen soll. Zu diesem Zeitpunkt können wir Robots.txt verwenden, um zu verhindern, dass Spider sie indizieren. Zum Beispiel vor ein paar Tagen mein Internet Die Geschwindigkeit war langsam und ich habe einen Artikel aktualisiert, was zu einer kontinuierlichen und wiederholten Veröffentlichung führte. Ich habe dreimal gesucht und alle Ergebnisse wurden von Suchmaschinen indiziert. Doppelter Inhalt ist definitiv nicht gut für die Website-Optimierung. Zu diesem Zeitpunkt können Sie Robots.txt so einstellen, dass redundante Seiten blockiert werden.
4. Sitemap des Robots.txt-Links
Da ein Spider beim Besuch einer Website als Erstes die Datei Robots.txt betrachtet, können wir darin die Sitemap festlegen, die Spider dabei hilft, die neuesten Informationen zu indizieren und viele unnötige Fehler zu vermeiden. Beispielsweise wird die Kartenseite des professionellen Website-Erstellungsunternehmens Pilot Technology angezeigt: http://www.****.net.cn/ sitemap.xml. Das Hinzufügen zu Robots.txt ist für die Suchmaschinenindizierung noch förderlicher . Sie müssen nicht jeden Tag zu Suchmaschinen gehen, um Kartendateien einzureichen. Ist das nicht sehr praktisch?
5. Schreibmethoden und Vorsichtsmaßnahmen
Der Schreibstil von Robots.txt muss standardisiert werden. Es gibt viele Leute, die beim Schreiben nachlässig sind. Zunächst einmal: User-agent:* muss geschrieben werden, * bedeutet für alle Suchmaschinen. Disallow: (Dateiverzeichnis) enthält keine Klammern, was bedeutet, dass die Indizierung durch Suchmaschinen verboten ist. Hier ein Beispiel zur Veranschaulichung:
Beispiel 1:
Benutzeragent:*
Nicht zulassen:/
Zeigt an, dass der Zugriff auf den Suchmaschinenindex verboten ist.
Beispiel 2:
Benutzeragent:*
Nicht zulassen:/seebk
Zeigt an, dass Suchmaschinenindizes nicht auf das Seebk-Verzeichnis zugreifen dürfen.
Beispiel 3:
Benutzeragent:baiduspider
Benutzeragent:*
Nicht zulassen:/
Gibt an, dass nur der Zugriff auf den gestapelten Baidu-Spider-Index zulässig ist: Baidu: baiduspider, Google: googlebot, Soso: sosospider, Alexa: ia_archiver, Yahoo: Yahoo Slurp
Beispiel 4:
Benutzeragent:*
Nicht zulassen: .jpg$
Um das Hotlinking von JPG-Bildern zu verhindern, müssen Sie es nicht einstellen, wenn Ihre Bandbreite ausreichend ist.
Nachtrag: Optimieren Sie Robots.txt, um Ihre Stärken zu maximieren und Ihre Schwächen zu vermeiden, um die Optimierung und reibungslose Entwicklung der Website zu erleichtern.
Persönlicher Bereich des binären Netzwerks des Autors