Web サイトのログを観察して分析したところ、Web サイトの多くのページがスパイダーによって繰り返しクロールされており、Web サイトの最適化にはあまり良くないことがわかりました。では、Web サイトのページがスパイダーによって繰り返しクロールされるのを防ぐにはどうすればよいでしょうか?
1. robots ファイルを使用してこのページをブロックします。具体的な方法は次のとおりです。
許可しない: /page/ #WordPress ページネーションのクロールを制限する Web サイトをチェックする必要がある場合は、重複ページが多すぎるのを避けるために次のステートメントを一緒に書くこともできます。 * 許可しない: /category/*/page/* #カテゴリ ページングのクロールを制限する* 許可しない:/tag/ #タグ ページのクロールを制限する* 許可しない: */trackback/ #トラックバック コンテンツのクロールを制限する* 許可しない:/category /* #すべてのカテゴリ リストのクロールを制限する スパイダーとは クローラーとも呼ばれます。このプログラムの機能は、Web サイトの URL に沿って情報をレイヤーごとに読み取り、単純な処理を実行し、それをバックエンド サーバーにフィードバックして集中処理することです。ウェブサイトをより適切に最適化するには、スパイダーの好みを理解する必要があります。次にクモの活動プロセスについて話しましょう。
2. スパイダーが動的ページに遭遇する
スパイダーは、動的な Web ページ情報を処理する際に問題に直面します。動的 Web ページとは、プログラムによって自動的に生成されるページを指します。インターネットが発達した現在、プログラム開発用のスクリプト言語はますます増えており、jsp、asp、php、その他の言語など、動的 Web ページの種類も自然に開発されています。スパイダーがこれらのスクリプト言語で生成された Web ページを処理することは困難です。最適化する際、オプティマイザーは常に JS コードをできるだけ使用しないことを重視します。これらの言語を完全に処理するには、スパイダーは独自のスクリプトを必要とします。 Web サイトを最適化するときは、スパイダーのクロールを容易にし、ページの繰り返しのクロールを避けるために、いくつかの不要なスクリプト コードを減らしてください。
3. スパイダーズタイム
Web サイトのコンテンツは、更新またはテンプレートの変更によって頻繁に変更されます。スパイダーはまた、Web ページのコンテンツを常に更新およびクロールします。スパイダー開発者は、クローラーの更新サイクルを設定し、指定された時間に従って Web サイトをスキャンして、更新が必要なページを確認および比較できるようにします。タイトルが変更されたかどうか、Web サイト上のどのページが新しいページであるか、どのページが期限切れのデッドリンクであるかなど。検索エンジンの更新サイクルは検索エンジンの再現率に大きな影響を与えるため、強力な検索エンジンの更新サイクルは常に最適化されています。ただし、更新サイクルが長すぎると、検索エンジンの検索精度と完全性が低下し、更新サイクルが短すぎると、一部の新しく生成された Web ページが検索できなくなり、技術的な実装がより困難になります。帯域幅が影響を受け、サーバー リソースが浪費されます。
4. スパイダーの反復しない這い戦略
Web サイト上の Web ページの数は非常に多く、スパイダー クローリングは、大量の回線帯域幅、ハードウェア リソース、時間リソースなどを必要とする大規模なプロジェクトです。同じ Web ページが頻繁に繰り返しクロールされると、システムの効率が大幅に低下するだけでなく、精度が低いなどの問題が発生します。通常、検索エンジン システムは、Web ページを繰り返しクロールしない戦略を設計しています。これは、同じ Web ページが一定期間内に 1 回だけクロールされるようにするためです。
これは、Web サイトのページの繰り返しクロールを回避する方法についての紹介です。記事は Global Trade Network によって編集されています。
編集長:陳龍 著者福州SEO企画の個人スペース