So verhindern Sie, dass Website-Seiten wiederholt gecrawlt werden

Autor：Eve Cole Aktualisierungszeit：2011-12-22 17:49:16

Bei der Beobachtung und Analyse der Protokolle der Website haben wir festgestellt, dass viele Seiten der Website wiederholt von Spidern gecrawlt wurden, was für die Optimierung der Website nicht sehr gut ist. Wie verhindern wir also, dass Website-Seiten wiederholt von Spidern gecrawlt werden?

1. Verwenden Sie die Robots-Datei, um diese Seite zu blockieren. Die spezifische Methode ist wie folgt:

Nicht zulassen: /page/ #Crawling der WordPress-Paginierung einschränken Wenn Sie Ihre Website überprüfen müssen, können Sie auch die folgenden Anweisungen zusammenfassen, um zu viele doppelte Seiten zu vermeiden. * Disallow: /category/*/page/* #Crawling von Kategorieseiten einschränken* Disallow:/tag/ #Crawling von Tag-Seiten einschränken* Disallow: */trackback/ #Crawling von Trackback-Inhalten einschränken* Disallow:/category /* #Crawling aller Kategorielisten einschränken Was ist ein Spider? Es wird auch Crawler genannt. Es ist eigentlich ein Programm. Die Funktion dieses Programms besteht darin, einige Informationen Schicht für Schicht entlang der URL Ihrer Website zu lesen, eine einfache Verarbeitung durchzuführen und sie dann zur zentralen Verarbeitung an den Backend-Server zurückzuleiten. Wir müssen die Vorlieben von Spidern verstehen, um die Website besser zu optimieren. Lassen Sie uns als Nächstes über den Arbeitsprozess von Spinnen sprechen.

2. Spider trifft auf dynamische Seiten

Spinnen haben Probleme bei der Verarbeitung dynamischer Webseiteninformationen. Dynamische Webseiten beziehen sich auf Seiten, die von Programmen automatisch generiert werden. Mit der Entwicklung des Internets gibt es immer mehr Skriptsprachen für die Programmentwicklung und natürlich werden immer mehr dynamische Webseitentypen wie JSP, ASP, PHP und andere Sprachen entwickelt. Für Spider ist es schwierig, mit diesen Skriptsprachen generierte Webseiten zu verarbeiten. Bei der Optimierung legen Optimierer immer Wert darauf, möglichst wenig JS-Code zu verwenden. Um mit diesen Sprachen perfekt umgehen zu können, müssen Spider über eigene Skripte verfügen. Reduzieren Sie bei der Optimierung der Website einige unnötige Skriptcodes, um das Spider-Crawling zu erleichtern und ein wiederholtes Crawlen der Seite zu vermeiden!

3. Spinnenzeit

Der Inhalt der Website ändert sich häufig, sei es durch Updates oder Vorlagenänderungen. Spiders aktualisieren und crawlen außerdem ständig den Inhalt von Webseiten. Spider-Entwickler legen einen Aktualisierungszyklus für den Crawler fest, der es ihm ermöglicht, die Website entsprechend der angegebenen Zeit zu scannen, um zu sehen und zu vergleichen, welche Seiten aktualisiert werden müssen, wie zum Beispiel: Startseite Ob der Titel geändert wurde, welche Seiten neue Seiten auf der Website sind, welche Seiten tote Links sind, die abgelaufen sind usw. Der Aktualisierungszyklus einer leistungsstarken Suchmaschine wird ständig optimiert, da der Aktualisierungszyklus der Suchmaschine einen großen Einfluss auf die Wiedererkennungsrate der Suchmaschine hat. Wenn der Aktualisierungszyklus jedoch zu lang ist, verringert sich die Suchgenauigkeit und Integrität der Suchmaschine, und einige neu generierte Webseiten sind nicht durchsuchbar. Wenn der Aktualisierungszyklus zu kurz ist, wird die technische Implementierung schwieriger und Die Bandbreite wird beeinträchtigt, was zu einer Verschwendung von Serverressourcen führt.

4. Spiders Strategie zum wiederholten Kriechen

Die Anzahl der Webseiten auf der Website ist sehr groß und das Crawlen von Spinnen ist ein riesiges Projekt. Das Knacken von Webseiten erfordert viel Leitungsbandbreite, Hardwareressourcen, Zeitressourcen usw. Wenn dieselbe Webseite häufig wiederholt gecrawlt wird, verringert dies nicht nur die Effizienz des Systems erheblich, sondern verursacht auch Probleme wie eine geringe Genauigkeit. Normalerweise haben Suchmaschinensysteme eine Strategie entwickelt, bei der Webseiten nicht wiederholt gecrawlt werden. Dadurch soll sichergestellt werden, dass dieselbe Webseite innerhalb eines bestimmten Zeitraums nur einmal gecrawlt wird.

Dies ist die Einführung, wie Sie das wiederholte Crawlen von Website-Seiten vermeiden können. Der Artikel wurde von Global Trade Network herausgegeben.

Chefredakteur: Chen Long Persönlicher Bereich des Autors Fuzhou SEO Planning