-
robots.txt は、検索エンジン スパイダーがサイトをクロールするときに最初に表示するファイルです。このファイルは、サイト上のどのファイルの表示が許可され、どのファイルが許可されないかを検索エンジン スパイダー プログラムに伝えます。現在でも主流の検索エンジンはこの規制を遵守しており、このサイトは20日午後11時頃にrobots.txtファイルのブロックを解除し、検索エンジンスパイダーがアクセスできるようにした。確認したところ、Baiduは実際に2番目のGoogleもそれを受け入れました。
さて、本題に入りましょう。 robots.txt はテキスト ファイルであり、「robots.txt」という名前を付けてサイトのルート ディレクトリにアップロードする必要があります。検索エンジンのロボットはこれをドメイン名のルート ディレクトリでのみ検索するため、サブディレクトリへのアップロードは無効です。 。 書類。繰り返しますが、合肥 SEO の基本的な知識がない場合は、ここで皆さんの時間を無駄にする必要はありません。Baidu Search ヘルプ センターと Google 中国語管理者ブログにアクセスしてください。ここでは、主に robots.txt の観点から紹介します。ウェブサイト最適化プロセスにおける SEO の役割。
1. Web サイトの最適化に役立つ robots.txt の使用に関するヒント
1. オンライン Web サイト構築は便利な方法を提供します。ドメイン名をサーバーに解決すると、サイトにアクセスできるようになりますが、現時点ではサイトは適切にレイアウトされておらず、メタ タグも混乱したままです。この時点でサイトは検索エンジンのスパイダーによってクロールされ、組み込まれているため、その時点で変更されると SEO の最適化に非常に悪影響を及ぼします。現時点では、robots.txt ファイルを使用して、すべての検索エンジン スパイダーがサイトのすべてのコンテンツのクエリを許可しないように設定できます。その構文形式は次のとおりです。
ユーザーエージェント: *
許可しない: /
2. 検索エンジン スパイダーをカスタマイズして指定されたコンテンツをクロールし、サイトの条件に基づいて検索エンジンの処理方法を選択できるようにします。ここには2つの意味があります。
(1) カスタマイズされた検索エンジン。 Du Niang の行為を軽蔑するなら、彼女をこのように見つめるだけでも構いません。その構文形式は次のとおりです。
ユーザーエージェント:baiduspider
許可しない: /
注: 一般的な検索エンジンのロボット名。
名前検索エンジン
Baiduspider http://www.baidu.com
スクーターhttp://www.altaVista.com
ia_archiver http://www.Alexa.com
Googlebot http://www.google.com
FAST-WebCrawler http://www.alltheweb.com
スラープhttp://www.inktomi.com
MSNBOT http://search.msn.com
(2) サイトのコンテンツをカスタマイズします。つまり、スパイダーのクロールを許可するディレクトリと、スパイダーのクロールを禁止するディレクトリを指定できます。たとえば、すべての検索エンジン スパイダーは、ディレクトリ abc の下のコンテンツをクロールできますが、ディレクトリ def の下のコンテンツをクロールすることは禁止されています。構文形式は次のとおりです。
ユーザーエージェント: *
許可: /abc/
禁止: /def/
3. 検索エンジンが Web サイトのコンテンツをクロールできるようにします。ここでの最も典型的な方法は次のとおりです
(1) スパイダーを誘導してサイトマップを巡回させます。その構文形式は次のとおりです。
ユーザーエージェント: *
サイトマップ:サイトマップ URL
(2) スパイダーが重複コンテンツを求めて Web サイトをクロールするのを防ぎます。
4. 404 エラー ページの問題。サーバーが 404 エラー ページをカスタマイズし、サイトのルート ディレクトリに robots.txt ファイルを構成していない場合、検索エンジン スパイダーはそれを robots.txt ファイルとして扱い、検索エンジンによる Web サイト ページの包含に影響します。 。
2. 特定のプログラムを使用して Web サイトを構築するための robots.txt の書き方。これらは一般的なものであり、特定の状況に応じて決定する必要があります。
1. DedeCMS Webサイト構築用のrobots.txtファイルの書き方
ユーザーエージェント: *
禁止: /plus/フィードバック_js.php
禁止: /plus/フィードバック.php
禁止: /plus/mytag_js.php
禁止: /plus/rss.php
禁止: /plus/search.php
禁止: /plus/recommend.php
禁止: /plus/stow.php
禁止: /plus/count.php
禁止: /include
禁止: /templets
禁止: /member
2. WordPress ウェブサイト構築用の robots.txt ファイルの書き方
ユーザーエージェント: *
禁止: /wp-admin
禁止: /wp-content/plugins
禁止: /wp-content/主題
禁止: /wp-includes
禁止: /?s=
サイトマップ: http://www.***.com/sitemap.xml
3. phpcms ウェブサイト構築用の robots.txt ファイルの書き方
ユーザーエージェント: *
禁止: /admin
禁止: /data
禁止: /templates
禁止: /include
禁止: /言語
禁止: /api
禁止: /fckeditor
禁止: /install
禁止: /count.php
禁止: /コメント
禁止: /guestbook
禁止: /announce
禁止: /member
禁止: /message
禁止: /spider
禁止: /yp
禁止: /vote
禁止: /video
4. discuzフォーラムでのrobots.txtファイルの書き方
ユーザーエージェント: *
許可: /redirect.php
許可: /viewthread.php
許可: /forumdisplay.php
許可しない: /?
禁止: /*.php
このトピックは古いものですが、学ぶべきことはまだたくさんあります。 robots.txt ファイルを設定すると、「意図的な人」から攻撃される危険があるという人もいます。草の根活動家であるあなたは、「意図的な人」なので、何も恐れることはありません。ウェブサイト構築プログラム自体だけでなく、サーバーセキュリティなども含まれます。合肥SEOより: http://www.anhuiseo.org転載する場合は出典を明記してください。
qhpf298 の貢献に感謝します