robots.txt ファイルについては、友人が多かれ少なかれ聞いたことがあるか、自分で書いた可能性があります。実際のところ、私は今のところ robots.txt ファイルを書いたことはありません。ブログにスパイダーの侵入を防ぐ必要があるものは何もないと感じています。また、個人の独立したブログではリンク切れの可能性は非常に小さいはずであり、リンク切れに過度に対処する必要はないことを誰もが知っている必要があるため、必要ないと思います。ただし、robots.txt ファイルの作成方法は、個々の Web マスターが習得する必要があるスキルの 1 つであり、その用途は依然として非常に広いです。自分への復習も兼ねて詳しく紹介します。
robots.txt ファイルとは何ですか
ファイル名から判断すると、拡張子 .txt が付いています。これはメモ帳であるテキスト ファイルであることもわかります。英語をある程度知っている人なら誰でも知っているロボットですが、私たちにとってこのロボットは検索エンジンのロボットを意味します。その名前から、このファイルはスパイダーが読み取るために私たちが特別に作成したものだと推測できます。その機能は、それらの列またはページをクロールする必要がないことをスパイダーに伝えることです。もちろん、特定のスパイダーのアクセスを直接ブロックすることもできます。スパイダーがファイルの内容をできるだけ早く読み取ることができるように、このファイルは Web サイトのルート ディレクトリに配置されることに注意してください。
ロボットファイルの役割
実際、ロボット ファイルは、Web サイト内のデッド リンクをブロックするために最もよく使用されます。 Web サイト上のデッドリンクが多すぎると、Web サイトの重量に影響を与えることを誰もが知っておく必要があります。ただし、Web サイト上のリンク切れを削除するのは面倒ではありませんが、特に Web サイト内にリンク切れが多い場合は、削除するのに非常に時間がかかります。ロボットファイルの有用性が反映されます。これらのデッドリンクをフォーマットに従ってファイルに直接書き込むことで、スパイダーがクロールするのを防ぐことができます。これらをクリーンアップしたい場合は、後でゆっくりとクリーンアップしてください。一部の Web サイト コンテンツには、Web マスターがスパイダーに巡回させたくない URL やファイルが含まれており、それらを直接ブロックすることもできます。クモを保護する場合、通常はあまり使用されません。
ロボットファイルの書き方
この点はもっと重要であるべきです。間違ったことを書いてブロックしようとして失敗した場合、しかし捕獲したい内容を書いてそれが間に合わなかった場合は大きな損失を被ることになります。まず最初に、Allow と Disallow という 2 つのタグについて理解する必要があります。一方は許可され、もう一方は許可されません。誰もがその機能を理解できます。
ユーザーエージェント: *
許可しない:
または
ユーザーエージェント: *
許可する:
これら 2 つのコンテンツの段落は、Web サイトにクロール対象のものがいくつかしかなく、Allow タグを使用しない限り、実際には、すべてのクロールが許可されることを示しています。この User-agent: の後にはスパイダー名が続きます。誰もが主流の検索エンジンのスパイダー名に精通しているはずです。 Soso Spider を例に挙げてみましょう。
Soso Spiderをブロックしたい場合:
ユーザーエージェント: sosospider
許可しない: /
上記のパーミッションと比較すると、このシールドスパイダーは「/」が 1 つ増えただけで、その意味が大幅に変わっていることがわかります。そのため、書く際には注意が必要であり、余分に書いたからといってスパイダー自体をブロックすることはできません。スラッシュですが、わかりません。また、user-agent: スパイダー名に「*」が続く場合は、すべてのスパイダーが固定であることを意味します。
検索エンジン スパイダーによるディレクトリのクロールを禁止するには、設定コードは次のとおりです。
ユーザーエージェント: *
禁止: /ディレクトリ/
ディレクトリのクロールを防止したい場合は、ディレクトリ名の「/」に注意する必要があります。「/」がない場合は、このディレクトリ ページおよびそのディレクトリ下のページへのアクセスがブロックされることを意味します。 /" は、ブロックされたディレクトリに入るという意味です。以下のコンテンツ ページでは、これら 2 つの点を明確に区別する必要があります。複数のディレクトリをブロックしたい場合は、次を使用する必要があります
ユーザーエージェント: *
禁止: /directory1/
禁止: /directory2/
この形式は、/ディレクトリ 1/ディレクトリ 2/ の形式にすることはできません。
スパイダーが特定の種類のファイルにアクセスできないようにする場合 (たとえば、.jpg 形式の画像のクロールを防止する場合)、次のように設定できます。
ユーザーエージェント: *
禁止: .jpg$
上記はShanghai SEO XiaomaのWebサイト全体のrobotsファイルの記述方法であり、robotsの記述方法の種類と注意点のみを述べており、ターゲットスパイダーブロックやその他の記述方法については少し説明が少ないです。 、しかし、許可と禁止の意味はわかりますが、それについて考えると、書くことの他の多くの意味が導き出されます。特定の Web ページに対してロボットのメタ Web ページ タグを記述する方法もありますが、一般的にはあまり使用されません。
上記は上海セオポニーhttp://www.mjlseo.com/が編集したものです。転載する場合はその旨を明記してください。ありがとうございます。
編集長:襄陽作家シャオマ・ラオマのパーソナルスペース