最近発見したのは、Baidu Spider が愚かであるということです。最近、Baidu が Web サイトに取り込まれるのが非常に遅いことが分かりました。基本的に、他のページは取り込まれていません。憂鬱です! Web サイトの IIS ログを開いて確認してください。Baidu Spider をダウンロードして、大きな発見をしました。Baidu Spider は本当に愚か者です。
1. まず、Baidu Spider がいかに愚かであるかを見てみましょう。以下は私のウェブサイトでのBaidu Spiderの活動記録です。
1. 2009-06-03 21:26:05 W3SVC962713505 218.60.130.19 GET /robots.txt - 80 - 123.125.64.15 Baiduspider+(+http://www.baidu.com/search/spider.htm) 404 0 64 (注: 404 は robots.txt が見つからないことを示します)
2. 2009-06-03 21:26:49 W3SVC962713505 218.60.130.19 GET /index.asp - 80 - 123.125.64.15 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 64 (注: 200 は、ホームページ ファイルindex.asp が見つかったことを示します)
このことから、Baidu スパイダーの活動は、まず Web サイトにアクセスして robots.txt ファイルを見つけ、それが存在しない場合は、Baidu に現在含まれているホームページと比較した後、その Web サイトのホームページ Index.asp を見つけます。 、元のものと何も変わっていないことがわかり、去ります。ほとんどのウェブマスターと同じように、Baidu に含まれるページのスナップショットを時々更新したくない人はいないでしょうか。robots.txt を完成させる唯一の方法は、Baidu スパイダーをサイト内で走らせることだと思われます。
2. robots.txt を作成し、Baidu にサイト内を見て回ってもらいます。
robots.txt このファイルは必ず記述する必要があります。皆さんは具体的にどうやって書くか知っていますか?
例 1. すべての検索エンジンが Web サイトのどの部分にもアクセスできないようにする
ユーザーエージェント: *
許可しない: /
例 2. すべてのロボットにアクセスを許可する
(または、空のファイル「/robots.txt」を作成することもできます)
ユーザーエージェント: *
許可しない:
または
ユーザーエージェント: *
許可する: /
(表からの注: これは必要です。空のファイルを作成しないでください。それは百度が喫煙することです。次の文を書くのが最善です。)
例 3. Baiduspider による Web サイトへのアクセスのみを禁止する
ユーザーエージェント: Baiduspider
許可しない: /
例 4. Baiduspider にのみ Web サイトへのアクセスを許可する
ユーザーエージェント: Baiduspider
許可しない:
ユーザーエージェント: *
許可しない: /
例 5. スパイダーが特定のディレクトリにアクセスすることを禁止する
この例では、Web サイトには検索エンジンのアクセスを制限する 3 つのディレクトリがあります。つまり、ロボットはこれら 3 つのディレクトリにアクセスしません。各ディレクトリは個別に宣言する必要があり、「Disallow: /cgi-bin/ /tmp/」のように記述することはできないことに注意してください。
ユーザーエージェント: *
禁止: /cgi-bin/
禁止: /tmp/
許可しない: /~ジョー/
例 6. 特定のディレクトリ内の一部の URL へのアクセスを許可する
ユーザーエージェント: *
許可: /cgi-bin/see
許可: /tmp/hi
許可: /~joe/look
禁止: /cgi-bin/
禁止: /tmp/
許可しない: /~ジョー/
例 7. 「*」を使用して URL へのアクセスを制限する
/cgi-bin/ ディレクトリ内の拡張子「.htm」を持つすべての URL (サブディレクトリを含む) へのアクセスは禁止されます。
ユーザーエージェント: *
禁止: /cgi-bin/*.htm
例 8. 「$」を使用して URL へのアクセスを制限する
「.htm」接尾辞を持つ URL のみにアクセスが許可されます。
ユーザーエージェント: *
許可: .htm$
許可しない: /
例 9. Web サイト内のすべての動的ページへのアクセスを無効にする
ユーザーエージェント: *
許可しない: /*?*
例 10. Baiduspider による Web サイト上のすべての画像のクロールを禁止する
クロールできるのは Web ページのみであり、画像はクロールできません。
ユーザーエージェント: Baiduspider
禁止: .jpg$
禁止: .jpeg$
禁止: .gif$
禁止: .png$
禁止: .bmp$
例 11. Baiduspider に Web ページと .gif 形式の画像のみのクロールを許可する
Web ページと画像を GIF 形式でキャプチャすることは許可されていますが、他の形式で画像をキャプチャすることは許可されていません。
ユーザーエージェント: Baiduspider
許可: .gif$
禁止: .jpg$
禁止: .jpeg$
禁止: .png$
禁止: .bmp$
例 12. Baiduspider による .jpg 形式の画像の取得のみを禁止する
ユーザーエージェント: Baiduspider
禁止: .jpg$
参考までに、テーブル自体によって記述された robots.txt を見てください。
コードをコピーする
ユーザーエージェント: *
許可しない: /admin/
禁止: /ソフト/
許可: /images/
許可: /html/
許可: .htm$
許可: .php$
許可: .asp$
許可: .gif$
許可: .jpg$
許可: .jpeg$
許可: .png$
許可: .bmp$
許可する: /
説明する:
1. さまざまな検索エンジンによるインデックス作成を許可する
2. /admin ディレクトリのインデックス作成を無効にする これは Web サイトのバックエンドです。当然、これは禁止されています。
3. /soft などの重要なセキュリティ ディレクトリを無効にします。
4. /images ディレクトリへのアクセスを許可します。
5. /html ディレクトリへのアクセスを許可します。
6. すべての htm、php、asp、html ファイルへのアクセスを許可する
7. gif、jpg、jpeg、png、bmp 形式で写真を取り込むことができます
8. Web サイトのルート ディレクトリ内のファイルのクロールを許可します。
それでは、robots.txt を Web サイトとディレクトリにアップロードし、Baidu Spider が再び来るのを待ちます。時間が来たら、この有能なガイドがあのバカを駅まで連れて行き、歩き回ってくれるでしょう。この記事の著者は MOFHOT 外国貿易衣料品卸売ネットワーク www.mofhot.com によって収集され、公開されています。A5 にリンクを残してください。記事を公開するのは簡単ではありません。