多くの Web マスターが Web サイト上のページをスパイダーがクロールできないようにする方法を探していることはわかっていますが、彼らは robot.txt ファイルを使用してこれを実行しています。これは確かに良い習慣ですが、問題も発生します。Google/Yahoo!/MSN またはその他の検索エンジン スパイダーのクロールを防ぐために robot.txt を使用する場合の混乱です。簡単に説明します。
Robots.txt を介したクロールを防止する: 一部の URL アドレスはアクセスされたくないにもかかわらず、クロールされて検索エンジンの結果ページに表示される可能性があります。
META タグの NoIndex によってブロックされます。アクセスはできますが、クロールされず、検索結果にも表示されません。
ページ上のリンクのクロールを無効にしてブロックする: インデックスを作成するためにページをクロールしようとするリンクが他にもいくつかあるため、これはあまり賢明な方法ではありません (気にしない場合は、ページ上でスパイダーが無駄になります。検索時間を増やしたい場合はこれを行うこともできますが、そうすることで検索エンジンの結果ページに表示されなくなるとは考えないでください)
以下に簡単な例を示します。robot.txt ではスパイダーのクロールが制限されていますが、Google の検索結果には表示されます。
(robot.txt ファイルはサブドメインにも有効です)
about.com の /library/nosearch/ ファイルがブロックされていることがわかります。次の図は、このファイル内の URL アドレスを Google で検索した結果を示しています。
Google には、いわゆる整理されたカテゴリで依然として 2,760 件の検索結果があることに注目してください。彼らはこれらのページをクロールしなかったため、Google はこれらのページのコンテンツを確認できなかったため、単純なリンク アドレスだけが表示され、説明もタイトルもありませんでした。
さらに想像してみましょう。検索エンジンによってクロールされたくない Web ページが多数ある場合、これらの URL アドレスは引き続きカウントされ、トラフィックやその他の未知の独立したランキング要素が蓄積されますが、これらの URL アドレスは、リンクなので、そこから流れ出てくるリンクは決して見ることができません。以下の画像を参照してください。
ここでは 2 つの便利な方法を紹介します。
1. robot.txt 内の禁止されたディレクトリにリンクする場合は、nofollow コマンドを使用して、これらのリンク トラフィックを保存します。
2. これらの禁止されたページ (特に外部リンクによってもたらされたもの) の固定リンク フローを知っている場合は、代わりにメタの noindex を使用してフォローすることを検討して、スパイダーがこれらのリンク フローをスキップして、より多くのページを取得する時間を節約できます。それを必要とするあなたのウェブサイト!
この記事は reamo パーソナル SEO テクノロジー、オンライン プロモーション ブログからのものです: http://www.aisxin.cn 転載する場合は出典を明記してください。