Robots.txt ファイルは単純な TXT テキストですが、Web サイトの構築と Web サイトの最適化に重点を置いている SEO 担当者は、その存在が検索エンジンにクロールされたくないページをブロックしたり、画像のようなものになる可能性があることを知っています。地図はクモの道も示します。スパイダーがサイトにクロールすると、最初に Robots.txt ファイルが存在するかどうかにアクセスし、コンテンツ内のガイドラインに従ってインデックス アクセスを実行します。ファイルが存在しない場合は、次の手順に従って順番にアクセスします。ページ内のリンク。したがって、これを使用して、検索エンジンによってインデックスを作成する必要のない一部のディレクトリをブロックしたり、Robots.txt にサイト マップを記述してスパイダーのクロールを誘導したりすることができます。これは、Web サイトのセキュリティやサーバーの帯域幅の節約、インデックス作成の誘導に非常に強力です。 . 自分の強みをアピールし、自分の弱点を回避する効果が得られていると言えます。
1. Robots.txt を使用してサーバーの帯域幅を節約する
一般的にウェブマスターがこのような設定を行うことはほとんどありませんが、サーバーのアクセス数が多く、コンテンツが多すぎる場合は、イメージなどのフォルダーをブロックするなど、サーバーの帯域幅を節約するための設定を行う必要があります。検索エンジンのインデックス作成には役立ちますが、実用的な意味はなく、多くの帯域幅を浪費します。画像 Web サイトの場合、消費量はさらに驚くべきものとなるため、Robots.txt を使用すると、この問題を完全に解決できます。
2. Web サイトのセキュリティ ディレクトリを保護する
一般に、Robots.txt を設定する際には、スパイダーの巡回を防ぐために管理ディレクトリ、データベース、バックアップ ディレクトリを設定する必要があります。そうしないと、情報漏洩が発生しやすくなり、Web サイトのセキュリティに影響を与える可能性があります。もちろん、管理者がスパイダーにインデックスを作成したくないディレクトリは他にもあります。これを設定することで、検索エンジンがインデックス作成のこのルールに厳密に従うようにすることもできます。
3. 検索エンジンによるページのインデックス作成を禁止する
Web サイトには常に公開したくないページがいくつかあります。その場合、Robots.txt を使用して、それらのページがスパイダーによってインデックス付けされるのを防ぐことができます。たとえば、数日前の私のインターネットです。速度が遅く記事を更新したため、連続して公開が繰り返され、検索結果がすべて検索エンジンに登録されました。どうすればよいですか?現時点では、重複したコンテンツは Web サイトの最適化にとって好ましくありません。冗長なページをブロックするように Robots.txt を設定できます。
4. Robots.txt リンクサイトマップ
スパイダーが Web サイトにアクセスしたときに最初に見るのは Robots.txt ファイルであるため、そのファイル内にサイト マップを設定できます。これにより、スパイダーは最新情報のインデックスを作成し、多くの不要な間違いを回避できます。たとえば、専門的な Web サイト構築会社 Pilot Technology のマップ ページが表示されます: http://www.****.net.cn/sitemap.xmlこれを Robots.txt に追加すると、検索エンジンのインデックス作成にさらに役立ちます。 。地図ファイルを送信するために毎日検索エンジンにアクセスする必要がなく、とても便利ではないでしょうか。
5. 書き方と注意事項
Robots.txtの書き方を統一する必要がある 書き方が雑な人が多い。まず第一に: User-agent:* を記述する必要があります。* はすべての検索エンジンを意味します。 Disallow: (ファイル ディレクトリ) には括弧が含まれていません。これは、検索エンジンのインデックス作成が禁止されていることを意味します。
例 1:
ユーザーエージェント:*
許可しない:/
検索エンジンのインデックスへのアクセスが禁止されていることを示します。
例 2:
ユーザーエージェント:*
禁止:/seebk
検索エンジンのインデックスが seebk ディレクトリにアクセスすることを禁止することを示します。
例 3:
ユーザーエージェント:baiduspider
ユーザーエージェント:*
許可しない:/
Baidu スパイダー スタック インデックス アクセスのみが許可されることを示します: Baidu: baiduspider、Google: googlebot、Soso: sosospider、Alexa: ia_archiver、Yahoo: Yahoo Slurp
例 4:
ユーザーエージェント:*
許可しない:.jpg$
jpg 画像のホットリンクを防ぐために、帯域幅が十分であれば設定する必要はありません。
追記: Robots.txt を最適化して、長所を最大限に高め、短所を回避します。Robots.txt を適切に活用すると、Web サイトの最適化と開発がスムーズになります。
著者のバイナリ ネットワークのパーソナル スペース