robots.txt ファイルは多くの Web サイトの FTP にありますが、これがスパイダーのアクセスを制限するファイルであることしか知りません。このファイルには他の機能があるのでしょうか?
ロボット ファイルとは何ですか? このファイルは、検索エンジンと Web サイト間の通信の橋渡しとなるもので、検索エンジンが Web サイトをクロールするたびに、最初にこのファイルをチェックします。ドアも同じ。このファイルが存在しない場合は、検索エンジンのクロールが制限されていないことを意味します。このファイルが存在する場合、ファイルで指定された要件に従ってクロールされます。 Web マスターの中には、Web サイトを構築するとき、必ず検索エンジンによってインデックスが作成される必要があるのに、なぜクロールを制限する必要があるのかと疑問に思う人もいるかもしれません。検索エンジンはクロール プロセス中にサイト全体を検索します。あなたが収集したものや、実質的なコンテンツのない類似のページの場合、検索エンジンがクロールした後、Web サイトの評価は大幅に低下し、SEO 効果はありません。ただし、ロボットファイルはスパイダーに通知します。どのページに移動させたくないのか、間接的にサーバーの負荷も軽減されます。
このファイルについては、いくつか注意すべき点があります。
1.ファイル名のスペルは間違ってはならず、小文字にする必要があり、サフィックスは .txt である必要があります。
2.ファイルは Web サイトのルート ディレクトリ ( http://www.taofengyu.com/robots.txtなど) に配置し、アクセスできる必要があります。
3.ファイルの内容の構文は正しい必要があります。一般に、User-agent と Disallow が使用されます。
User-agent:* は、すべての検索エンジン スパイダーがクロールおよび含めることを許可されていることを意味します。Baidu に Web サイトを含めたくない場合は、* を「baiduspider」に置き換えます。そうすれば、Disallow によって制限されたコンテンツは Baidu によってクロールされず、含められなくなります。蜘蛛も含まれています。サイト全体のクロールを制限したい場合は、Disallow ファイルを「Disallow:/」と記述する必要があります。特定のフォルダー内のファイルのクロールを制限したい場合は、「Disallow:/admin」と記述します。 admin で始まるファイルのクロールを制限したい場合は、「Disallow:/admin」などと記述します。 特定のフォルダー内のファイルのクロールを制限したい場合。たとえば、 admin フォルダー内のindex.htm ファイルを使用する場合、Disallow 構文は「Disallow:/admin/index.htm」として記述されます。 Disallow の後に「/」がない場合は、Web サイトのすべてのページがクロールされて含められることを意味します。
一般に、スパイダーがバックグラウンド管理ファイル、プログラム関数、データベース ファイル、スタイル シート ファイル、テンプレート ファイル、Web サイトの一部の画像などをクロールする必要はありません。
4. Disallow 関数は robots ファイルに存在する必要があります。これは、このファイルを確立するための重要な要素です。
以上、ロボットファイルの重要性とその方法についてご紹介しましたが、皆さんのお役に立てれば幸いです。
この記事は桃峰裕学生用品ネットワークhttp://www.taofengyu.com/からのものであり、転載する場合は出典を明記し、著者の労力を尊重してください。
タオバオの子供用おもちゃの著者の個人スペース