Achten Sie darauf, dass robots.txt das Crawlen des Links nicht blockiert

Autor：Eve Cole Aktualisierungszeit：2009-06-05 22:45:04

Wir wissen, dass viele Webmaster nach einer Möglichkeit suchen, das Crawlen der Seiten ihrer Websites durch Spider zu verhindern, und sie tun dies auch mithilfe der robot.txt-Datei. Obwohl dies tatsächlich eine gute Vorgehensweise ist, stellt sich auch das Problem dar: Verwirrung bei der Verwendung von robot.txt, um das Crawlen von Google/Yahoo!/MSN oder anderen Suchmaschinen-Spidern zu verhindern. Hier eine kurze Erklärung:

Crawling durch Robots.txt verhindern: Auf einige URL-Adressen möchte nicht zugegriffen werden, sie können aber dennoch gecrawlt werden und auf den Ergebnisseiten von Suchmaschinen angezeigt werden.

Blockiert durch den NoIndex des META-Tags: Es kann darauf zugegriffen werden, aber es möchte nicht gecrawlt werden und möchte nicht in den Suchergebnissen aufgeführt werden.

Blockieren Sie, indem Sie das Crawlen von Links auf der Seite deaktivieren: Dies ist kein sehr kluger Schachzug, da es einige andere Links gibt, die die Seite trotzdem crawlen möchten, um sie zu indizieren (Wenn es Ihnen egal ist, werden dadurch Spider auf Ihrer Seite verschwendet! Sie können dies auch tun, wenn Sie die Suchzeit verlängern möchten, aber nicht glauben, dass dadurch die Anzeige auf der Ergebnisseite der Suchmaschine verhindert wird.)

Hier ist ein einfaches Beispiel. Obwohl das Spider-Crawling in robot.txt eingeschränkt ist, wird es dennoch in den Google-Suchergebnissen angezeigt.

(robot.txt-Dateien gelten auch für Subdomains)

Wir können sehen, dass die Datei /library/nosearch/ von about.com blockiert wurde. Die folgende Abbildung zeigt die Ergebnisse, wenn wir die URL-Adresse in dieser Datei in Google durchsuchen:

Beachten Sie, dass Google immer noch 2.760 Suchergebnisse in sogenannten organisierten Kategorien hat. Sie haben diese Seiten nicht gecrawlt, daher sahen sie lediglich eine einfache Linkadresse, keine Beschreibung und keinen Titel, da Google den Inhalt dieser Seiten nicht sehen konnte.

Stellen wir uns weiter vor, dass, wenn Sie eine große Anzahl von Webseiten haben, die nicht von Suchmaschinen gecrawlt werden sollen, diese URL-Adressen immer noch gezählt werden und Traffic und andere unbekannte unabhängige Ranking-Faktoren ansammeln, aber sie können dem nicht folgen Link, so dass die daraus hervorströmenden Links nie zu sehen sind, siehe Bild unten:

Hier sind zwei praktische Methoden:

1. Speichern Sie diesen Linkverkehr, indem Sie den Befehl nofollow verwenden, wenn Sie auf verbotene Verzeichnisse in robot.txt verlinken.

2. Wenn Sie die festen Linkflüsse dieser gesperrten Seiten kennen (insbesondere die durch externe Links), können Sie stattdessen die Verwendung von Metas „noindex and follow“ in Betracht ziehen, damit Spider diese Linkflüsse überspringen und so Zeit sparen, um mehr Seiten abzurufen Ihre Website, die es braucht!

Dieser Artikel stammt von reamo Personal SEO Technology, Online-Promotion-Blog: http://www.aisxin.cn Bitte geben Sie beim Nachdruck die Quelle an.