ずっと前に阿彬さんの記事を書くと約束していたのですが、まだ書いていませんでした。数日前に卓邵さんがロボットについて質問しているのを見たのでまとめてみました。ロボットに関するいくつかの状況について話しましょう。 robots.txt ファイルは Web サイトのルート ディレクトリに配置され、Web サイトにアクセスするときに検索エンジンが最初に表示するファイルです。検索スパイダーがサイトにアクセスすると、まず robots.txt がサイトのルート ディレクトリに存在するかどうかを確認し、存在する場合はファイルの内容に基づいてアクセス範囲を決定します。存在しません、すべて 検索スパイダーは、パスワードで保護されていない Web サイト上のすべてのページにアクセスできます。すべての Web サイトにはロボットが必要です。ロボットは、Web サイト上のどの項目がクロールを許可されておらず、どのページがクロールおよびクロールされてもよいかを検索エンジンに通知します。
ロボットのいくつかの機能:
1. すべての検索エンジンによる情報のクロールをブロックする Web サイトが単なるプライベート Web サイトであり、あまり多くの人に知られたくない場合は、ロボットを使用して、自分が書いたプライベート ブログなどのすべての検索エンジンをブロックできます。すべての検索エンジンをブロックできます
ユーザーエージェント: *
許可しない: /
2. 特定の検索エンジンのみに情報をクロールさせたい場合は、この時点でロボットを使用して設定できます。たとえば、自分の Web サイトだけを Baidu に含めたいが、他の検索エンジンには含めたくない。ロボットを使用してセットアップすることもできます
ユーザーエージェント: Baiduspider
許可する:
ユーザーエージェント: *
許可しない: /
3. さまざまなワイルドカードを使用して、Web サイトを適宜設定できます。たとえば、Web サイトですべての写真をクロールしたくない場合は、$ を使用して設定できます。一般に、一般的な画像形式は BMP、JPG、GIF、JPEG およびその他の形式です。この時の設定は以下の通りです。
ユーザーエージェント: *
禁止: /.bmp$
禁止: /.jpg$
禁止: /.gif$
禁止: /.jpeg$
4. * を使用して関連 URL をブロックすることもできます。一部の Web サイトで検索エンジンが動的アドレスをクロールできない場合は、この * ワイルドカードを使用して一致設定を設定できます。通常の状況では、動的 URL の特性の 1 つは、「?」が存在することです。このとき、この機能を使用してマッチング ブロックを実行できます。
ユーザーエージェント: *
許可しない: /*?*
5. Web サイトが改訂され、フォルダー全体がなくなった場合は、フォルダー全体をブロックすることを検討する必要があります。たとえば、Web サイトの ab フォルダーが改訂により削除された場合、ロボットを使用してフォルダー全体をブロックできます。
ユーザーエージェント: *
禁止: /ab/
6. Web サイト内に含めたくないフォルダーがあり、そのフォルダー内に含めることが許可されている情報がある場合。その後、ロボットの許可を使用して設定できます。たとえば、私の Web サイトの ab フォルダーは検索エンジンによるクロールが許可されていませんが、ab フォルダーにはクロールが許可されている情報 CD があり、現時点ではロボットを使用して設定できます。
ユーザーエージェント: *
禁止: /ab/
許可:/ab/cd
7. サイト マップの位置をロボットで定義できるため、Web サイトを含めるのに役立ちます。
サイトマップ:<サイトマップの場所>
8. 私の Web サイトにロボットが設定されていることがわかりますが、この URL アドレスが含まれていることがわかります。これは、通常、Google がこの検索エンジンのスパイダーが URL を経由して Web ページをクロールするためです。このような URL にはタイトルと説明がありませんが、Baidu がこの URL をクロールすると、タイトルと説明が表示されるため、多くの人はロボットを設定したが効果がないと言うでしょう。実際の状況は、リンクはクロールされていますが、ページのコンテンツは含まれていません。
Web サイトのトップページの重みが最も高く、重みはリンクによって転送され、重みを高くする必要があるページに重みをより適切に転送するようにロボットを設定し、一部のページは検索によってクロールされる必要がありません。のエンジン。
担当編集者:Chen Long 著者︶ Shitou Peng のパーソナルスペース