ご存知のとおり、サイトにアクセスしたりインデックスを作成したりするときに、常にスパイダー エンジンに依存して効率的に動作するとは限りません。スパイダーは独自のポートに完全に依存するため、大量の重複コンテンツを生成し、重要なページをゴミとして扱い、ユーザーに表示すべきでないリンク エントリのインデックスを作成するなどの問題を抱えます。メタ ロボット タグ、robots.txt、正規タグなど、Web サイト内のスパイダーのアクティビティを完全に制御できるツールがいくつかあります。
今回はロボット制御技術利用の限界についてお話します。スパイダーが特定のページを巡回するのを防ぐために、ウェブマスターは複数のロボット制御技術を使用して、検索エンジンが特定のウェブページにアクセスすることを禁止することがあります。残念ながら、これらの手法は時々相互に競合する可能性があります。一方で、そのような制限により、特定のデッドリンクが隠蔽される可能性があります。
では、ページの robots ファイルがアクセスからブロックされている場合、または noindex タグや canonical タグとともに使用されている場合はどうなるでしょうか?
簡単なレビュー
本題に入る前に、主流のロボットの制限テクニックをいくつか見てみましょう。
メタボットタグ
Meta Robots タグは、検索エンジン ロボットのページ ランクの説明を確立します。メタロボットタグはHTMLファイルの先頭に配置する必要があります。
正規タグ
canonical タグは、Web ページの HTML ヘッダーにあるページレベルのメタ タグです。どの URL が適切に表示されるかを検索エンジンに伝えます。その目的は、検索エンジンが重複コンテンツをクロールするのを防ぐと同時に、重複ページの重みを標準化されたページに集中させることです。
コードは次のようなものです:
<link rel="canonical" href=" http://example.com/quality-wrenches.htm"/ >
Xロボット Tags
2007 年以来、Google およびその他の検索エンジンは、ファイルのクロールとインデックス作成を優先するようにスパイダーに指示する方法として X-Robots-Tag をサポートしています。このタグは、PDF ファイルなどの非 HTML ファイルのインデックス作成を制御するのに役立ちます。
ロボットタグ
robots.txt を使用すると、一部の検索エンジンが Web サイトにアクセスできるようになりますが、特定のページがクロールされてインデックスに登録されるかどうかは保証されません。 SEO 上の理由がない限り、robots.txt は本当に必要な場合、またはサイト上にブロックする必要があるロボットが存在する場合にのみ使用する価値があります。代わりにメタデータ タグ「noindex」を使用することを常にお勧めします。
衝突を避ける
ロボットの入場を制限するために 2 つの方法を同時に使用するのは賢明ではありません。
· メタロボット「noindex」
· Canonical タグ (別の URL を指す場合)
· Robots.txt を禁止する
・X-Robots-Tag(エックスロボットタグ)
ページを検索結果に表示し続けたい場合でも、2 つのアプローチよりも 1 つのアプローチのほうが常に優れています。単一の URL に多数のロボットの経路制御技術が含まれている場合に何が起こるかを見てみましょう。
メタロボットの「noindex」と正規タグ
ある URL の権限を別の URL に渡すことが目的で、他に良い方法がない場合は、Canonical タグを使用するしかありません。メタロボットタグの「noindex」でトラブルに巻き込まれないようにしてください。 2 ロボット方式を使用すると、検索エンジンが Canonical タグをまったく認識しない可能性があります。ロボットの noindex タグによって Canonical タグが認識されなくなるため、重量移動の効果は無視されます。
Meta Robots 'noindex' および X-Robots-Tag 'noindex'
これらのラベルは冗長です。この 2 つのタグが同じページに配置されると、SEO に悪影響が及ぶとしか思えません。メタボット「noindex」でヘッダー ファイルを変更できる場合は、xbot タグを使用しないでください。
Robots.txt メタロボット「noindex」を禁止(&M)
私がこれまでに見た最も一般的な競合は次のとおりです。
私が Meta Robots の「noindex」を好む理由は、このページに接続されているより深いページに重みを渡しながら、ページのインデックス作成を効果的に防止するためです。これは双方にとって有利なアプローチです。 robots.txt ファイルでは、検索エンジンがページ上の情報 (およびページ内の貴重な内部リンク) を参照することを完全に制限することはできません。特に、URL のインデックス作成を制限することはできません。このトピックについては以前別の記事を書きましたが、どのようなメリットがあるのでしょうか。
両方のタグが使用されている場合、robots.txt によってメタ ロボットの「noindex」がスパイダーから見えなくなることが保証されます。 robots.txt の禁止の影響を受け、Meta Robots の「noindex」の利点をすべて享受できなくなります。
記事の出典は、ウェブサイト最適化の専門家であるwww.leadseo.cnです。転載する場合は出典を保管してください。ありがとうございます。
担当編集者:Chen Long 著者frank12のパーソナルスペース