Tipps zur Vermeidung von Spider Crawls und Indexierungsfehlern: Konflikte umgehen

Autor：Eve Cole Aktualisierungszeit：2011-09-06 17:10:34

Wie Sie wissen, können Sie sich beim Zugriff auf oder bei der Indizierung Ihrer Website nicht immer darauf verlassen, dass Spider-Engines effizient arbeiten. Indem sie sich vollständig auf ihre eigenen Ports verlassen, generieren Spider viele doppelte Inhalte, behandeln wichtige Seiten als Müll, indizieren Linkeinträge, die den Benutzern nicht angezeigt werden sollten, und haben andere Probleme. Es gibt einige Tools, mit denen wir die Aktivitäten von Spiders innerhalb der Website vollständig kontrollieren können, z. B. Meta-Robots-Tags, robots.txt, Canonical-Tags usw.

Heute werde ich über die Grenzen des Einsatzes der Robotersteuerungstechnologie sprechen. Um zu verhindern, dass Spider eine bestimmte Seite crawlen, verwenden Webmaster manchmal mehrere Robotersteuerungstechnologien, um Suchmaschinen den Zugriff auf eine bestimmte Webseite zu verbieten. Leider können diese Techniken manchmal miteinander in Konflikt geraten: Andererseits können solche Einschränkungen bestimmte tote Links verbergen.

Was passiert also, wenn der Zugriff auf die Robots-Datei einer Seite blockiert ist oder sie mit Noindex-Tags und Canonical-Tags verwendet wird?

Kurze Rezension

Bevor wir uns mit dem Thema befassen, werfen wir einen Blick auf einige einschränkende Techniken gängiger Roboter:

Metabot-Tags

Das Meta Robots Tag erstellt Page-Rank-Beschreibungen für Suchmaschinen-Robots. Das Meta-Robot-Tag sollte am Anfang der HTML-Datei platziert werden.

Canonical-Tag

Das Canonical-Tag ist ein Meta-Tag auf Seitenebene, das sich im HTML-Header einer Webseite befindet. Es teilt Suchmaschinen mit, welche URLs richtig angezeigt werden. Sein Zweck besteht darin, Suchmaschinen daran zu hindern, doppelte Inhalte zu crawlen und gleichzeitig das Gewicht doppelter Seiten auf der standardisierten Seite zu konzentrieren.

Der Code sieht so aus:

X-Roboter-Tags

Seit 2007 unterstützen Google und andere Suchmaschinen den X-Robots-Tag, um Spidern mitzuteilen, dass sie dem Crawlen und Indexieren von Dateien Priorität einräumen sollen. Dieses Tag ist nützlich, um die Indizierung von Nicht-HTML-Dateien, wie z. B. PDF-Dateien, zu steuern.

Roboter-Tag

robots.txt ermöglicht einigen Suchmaschinen den Zugriff auf die Website, garantiert jedoch nicht, ob eine bestimmte Seite gecrawlt und indiziert wird. Außer aus SEO-Gründen lohnt sich die Verwendung von robots.txt eigentlich nur dann, wenn es wirklich notwendig ist oder wenn es Robots auf der Seite gibt, die blockiert werden müssen. Ich empfehle immer, stattdessen das Metadaten-Tag „noindex“ zu verwenden.

Konflikte vermeiden

Es ist unklug, zwei Methoden gleichzeitig zu verwenden, um den Roboterzugang einzuschränken:

· Meta-Roboter 'noindex'

· Canonical Tag (beim Verweis auf eine andere URL)

· Robots.txt nicht zulassen

· X-Robots-Tag (x Roboter-Tag)

So sehr Sie auch möchten, dass Ihre Seite in den Suchergebnissen bleibt, ein Ansatz ist immer besser als zwei. Werfen wir einen Blick darauf, was passiert, wenn in einer einzigen URL viele Robots-Pfadsteuerungstechniken vorhanden sind.

Meta Robots „noindex“ und Canonical-Tags

Wenn Ihr Ziel darin besteht, die Autorität einer URL an eine andere URL weiterzugeben, und Sie keine andere bessere Möglichkeit haben, können Sie nur das Canonical-Tag verwenden. Machen Sie sich keine Probleme mit dem „Noindex“ der Meta-Robot-Tags. Wenn Sie die Zwei-Roboter-Methode verwenden, wird Ihr Canonical-Tag von Suchmaschinen möglicherweise überhaupt nicht angezeigt. Der Effekt der Gewichtsverlagerung wird ignoriert, da das Noindex-Tag des Roboters verhindert, dass er das Canonical-Tag sieht!

Meta Robots 'noindex' & X-Robots-Tag 'noindex'

Diese Etiketten sind überflüssig. Wenn diese beiden Tags auf derselben Seite platziert werden, sehe ich nur negative Auswirkungen auf die Suchmaschinenoptimierung. Wenn Sie die Header-Datei im Metabot „noindex“ ändern können, sollten Sie das xbot-Tag nicht verwenden.

Robots.txt &Meta Robots 'noindex' nicht zulassen

Hier sind die häufigsten Konflikte, die ich gesehen habe:

Der Grund, warum ich „noindex“ von Meta Robots bevorzuge, liegt darin, dass es effektiv verhindert, dass eine Seite indiziert wird, während das Gewicht dennoch auf tiefere Seiten verlagert wird, die mit dieser Seite verbunden sind. Dies ist ein Win-Win-Ansatz. Die robots.txt-Datei darf Suchmaschinen nicht vollständig daran hindern, die Informationen auf der Seite (und die darin enthaltenen wertvollen internen Links) zu sehen, und insbesondere nicht die Indexierung der URL einschränken. Was sind die Vorteile? Ich habe einmal einen separaten Artikel zu diesem Thema geschrieben.

Wenn beide Tags verwendet werden, macht robots.txt Meta Robots „noindex“ garantiert für Spider unsichtbar. Sie sind von der Nichtzulassung in robots.txt betroffen und verpassen alle Vorteile von Meta Robots „noindex“.

Die Quelle des Artikels ist www.leadseo.cn Shanghai Leadseo, ein Experte für Website-Optimierung. Bitte behalten Sie die Quelle beim Nachdruck bei.

Verantwortlicher Herausgeber: Chen Long Persönlicher Bereich des Autors frank12