インターネットはますますクールになり、WWW の人気は最高潮に達しています。インターネット上で企業情報を発信したり、電子商取引を行ったりすることは、ファッションからファッションへと進化しました。 Web マスターであれば、HTML、JavaScript、Java、ActiveX についてはよく知っているかもしれませんが、Web ロボットとは何か知っていますか? Web Robot とあなたがデザインするホームページとの間にどのような関係があるかご存知ですか?
インターネット上の放浪者 --- Web Robot
時々、彼らとまったく接触したことがないにもかかわらず、どういうわけか、ホームページのコンテンツが検索エンジンにインデックスされていることに気づくことがあります。実際、これはまさに Web Robot が行うことです。 Web ロボットは、実際には、多数のインターネット URL のハイパーテキスト構造を横断し、Web サイトのすべてのコンテンツを再帰的に取得できるプログラムです。これらのプログラムは、「スパイダー」、「Web ワンダラー」、「Web ワーム」、または Web クローラーと呼ばれることもあります。インターネット上の一部の有名な検索エンジン サイト (検索エンジン) には、Lycos、Webcrawler、Altavista などの情報収集を完了するための特殊な Web ロボット プログラムがあり、また、Polaris、NetEase、GOYOYO、等
Web ロボットは招かれざる客のようなもので、あなたがそれを気にするかどうかにかかわらず、主人の責任に忠実で、World Wide Web 上で精力的に働きます。もちろん、あなたのホームページにもアクセスし、コンテンツを取得します。ホームページを作成し、必要なレコード形式を生成します。もしかしたら、ホームページのコンテンツの一部を世界に知ってもらいたいと考えているかもしれませんが、一部のコンテンツは見られたくない、またはインデックスに登録されたくないかもしれません。 Web Robot をホームページ上で「蔓延」させておいて、その所在を制御できるでしょうか?答えはもちろん「はい」です。この記事の残りの部分を読む限り、あなたは交通警察官のように、道路標識を 1 つずつ配置し、ホームページの検索方法、どのページが検索可能で、どのページにアクセスできないかを Web Robot に指示することができます。
実際、Web ロボットはあなたの言葉を理解できます。Web
ロボットが組織化や制御なしに走り回っているとは考えないでください。多くの Web ロボット ソフトウェアでは、Web サイト管理者または Web コンテンツ制作者が Web ロボットの所在を制限するための 2 つの方法を提供しています。
1. ロボット排除プロトコル
インターネット サイトの管理者は、サイト上に特別な形式のファイルを作成して、サイトのどの部分にアクセスできるかを示すことができます。このファイルは、サイトのルート ディレクトリ (例: http://.../robots.txt ) に配置されます。
2. ロボットの META タグ
Web ページの作成者は、Web かどうかを示すために、特別な HTML META タグを使用できます。ページのインデックス作成、分析、リンクを行うことができます。
これらのメソッドはほとんどの Web ロボットに適しています。これらのメソッドがソフトウェアに実装されるかどうかはロボットの開発者に依存し、どのロボットでも有効であるとは保証されません。コンテンツを緊急に保護する必要がある場合は、パスワードの追加などの追加の保護方法を検討する必要があります。
ロボット排除プロトコルの使用
ロボットがhttp://www.sti.net.cn/などの Web サイトにアクセスすると、まず http://www.sti.net.cn/robots.txt ファイルをチェックします。このファイルが存在する場合、次のレコード形式に従って分析されます:
User-agent: *
禁止: /cgi-bin/
禁止: /tmp/
許可しない: /~ジョー/
サイトのファイルを取得するかどうかを決定します。これらのレコードは、Web Robot が参照できるようにするためのものであり、通常の閲覧者にはこのファイルが表示されないため、<img src=*> や "Where are you from?" などの HTML ステートメントを追加しないでください。その他の偽の挨拶。
サイト上に存在できる「/robots.txt」ファイルは 1 つだけであり、ファイル名の各文字はすべて小文字である必要があります。 Robot のレコード形式の個別の「Disallow」行は、Robot にアクセスさせたくない URL を示します。各 URL は個別の行を占める必要があり、「Disallow: /cgi-bin/ /tmp/」などの不適切な文は表示できません。同時に、空白行は複数のレコードを分割していることを示すため、レコード内に空白行を含めることはできません。
ユーザー エージェント行は、ロボットまたは他のエージェントの名前を示します。ユーザー エージェント行では、「*」には特別な意味があり、すべてのロボットを意味します。
以下に、サーバー全体上のすべてのロボットを拒否する
robot.txt の例をいくつか示します
。
ユーザーエージェント: *
禁止: /
すべてのロボットがサイト全体にアクセスできるようにします:
ユーザーエージェント: *
許可しない:
または、空の「/robots.txt」ファイルを生成します。
サーバーの一部はすべてのロボットからアクセス可能
ユーザーエージェント: *
禁止: /cgi-bin/
禁止: /tmp/
禁止: /private/
特定のロボットを拒否:
ユーザーエージェント: BadBot
許可しない: /
1 台のロボットのみの訪問を許可します。
ユーザーエージェント: WebCrawler
許可しない:
ユーザーエージェント: *
許可しない: /
最後に、 http://www.w3.org/サイトにある robots.txt を提供します。
# search.w3.org で使用するため
ユーザーエージェント: W3Crobot/1
許可しない:
ユーザーエージェント: *
Disallow: /Member/ # これは W3C メンバーのみに制限されています
許可しない: /member/ # これは W3C メンバーのみに制限されています
許可しない: /team/ # これは W3C チームのみに制限されます
禁止: /TandS/Member # これは W3C メンバーのみに制限されています
許可しない: /TandS/Team # これは W3C チームのみに制限されます
禁止: /プロジェクト
禁止: /Systems
禁止: /Web
許可しない: /チーム
Robots META タグの使用
Robots META タグを使用すると、HTML Web ページの作成者は、ページにインデックスを作成できるかどうか、またはリンクされたファイルをさらに検索するために使用できるかどうかを示すことができます。現在、この機能を実装しているのは一部のロボットのみです。
Robots META タグの形式は次のとおりです。
<META NAME="ロボット" コンテンツ="NOINDEX、NOFOLLOW">
他の META タグと同様に、HTML ファイルの HEAD 領域に配置する必要があります。
<html>
<頭>
<meta name="ロボット" content="noindex,nofollow">
<meta name="description" content="このページ ....">
<タイトル>...</タイトル>
</head>
<本文>
...
ロボットの META タグ命令はカンマで区切られています。使用できる命令には、[NO]INDEX と [NO] FOLLOW があります。 INDEX ディレクティブは、インデックス作成ロボットがこのページにインデックスを付けることができるかどうかを示し、FOLLOW ディレクティブは、ロボットがこのページへのリンクをたどることができるかどうかを示します。デフォルトは INDEX と FOLLOW です。例えば:
<meta name="ロボット" content="index,follow">
<meta name="ロボット" content="noindex,follow">
<meta name="ロボット" content="index,nofollow">
<meta name="robots" content="noindex,nofollow">
優れた Web サイト管理者は、ロボットが自身の Web ページのセキュリティを損なうことなく自分のホームページにサービスを提供できるように、ロボットの管理を考慮する必要があります。