重複したコンテンツ: 原因と解決策

著者：Eve Cole 更新時間：2010-12-16 17:49:00

Google などの検索エンジンには問題があります。彼らはそれを「重複コンテンツ」と呼んでいます。コンテンツは Web サイトのさまざまなページに表示されますが、どのアドレスに表示すればよいかわかりません。この重複コンテンツは、ユーザーがコンテンツのさまざまなバージョンすべてにリンクしている場合に特に問題になります。この記事の目的は、重複コンテンツのさまざまな原因を理解し、それぞれの原因を修正する方法を見つけられるようにすることです。

コンテンツが重複する理由

1. URLの概念を誤解している

2. セッションID

3. URL追跡パラメータ

4. コンテンツ検索とコンテンツ集約

5. パラメータの順序

6. コメントのページネーション

7. ページを印刷する

8. www 対 www なし

概念的な回避策「canonical」タグ

1. 重複コンテンツを特定する

2. Google ウェブマスターツール

3. タイトルをクエリする検索コマンド

重複コンテンツを解決するための実践的な手順

1. 重複したコンテンツを避ける

2. 301リダイレクト

4. rel="canonical" タグを使用する

5. オリジナルコンテンツへのリンク

概要: 重複コンテンツは対処可能であり、対処する必要があります。

重複したコンテンツは、交差点に立っているときに、同じ目的地を示す 2 つの異なる方向の道路標識がある場合、どちらに進むべきか、と考えることができます。さらに、目的地が異なる場合、状況はさらに悪化します。読者としては、コンテンツがどこから来たのかは気にしませんが、検索エンジンは同じコンテンツを 2 回表示したくないため、検索結果に表示するコンテンツを選択する必要があります。

たとえば、キーワード-x/ に関するコンテンツですが、この状況は架空のものではなく、この問題は多くの cms システムに存在します。たとえば、あなたの記事が一部のネチズンによって収集および再投稿されており、あなたの最初の URL にリンクしている人もいれば、2 番目の URL にリンクしている人もいます。ここで重複コンテンツの問題が発生します。このキーワードに関するすべてのリンクが 1 つの URL を指している場合、そのキーワードがホームページに掲載される可能性は非常に高くなります。

重複コンテンツの原因

コンテンツの重複を引き起こす要因は数多くあります。そのほとんどは技術的なもので、元のソースを引用せずに同じコンテンツを 2 つの異なる場所に配置することを誰かが決定することはあまり一般的ではなく、ほとんどの人が不快に感じるでしょう。技術的な理由も非常に優れています。その原因のほとんどは、プログラマーがブラウザやユーザーの視点に立っておらず、検索エンジンのスパイダーなど気にも留めず、プログラマーの考えに従っているだけだということです。前述の記事がhttp://www.example.com/keyword-x/およびhttp://www.example.com/article-category/keyword-x/に掲載されているとします。プログラマに尋ねると、それは 1 回しか出現しないと言うでしょう。

URLの概念を誤解している

では、プログラマーは頭がおかしいのでしょうか？いいえ、いいえ、彼はまた別の言語を話しました。あなたが目にするウェブサイト全体はおそらくデータベース主導型です。そのデータベースには記事が 1 つだけあり、Web サイトプログラムにより、データベース内の記事にさまざまな URL からアクセスできます。なぜなら、プログラマーの目には、データベース内の記事に URL ではなく一意の ID があるということだけが兆候だからです。検索エンジンにとって、URL は記事の一意の識別子です。これをプログラマに伝えれば、プログラマは問題の原因を理解するでしょう。そして、私と一緒に仕事をしているほとんどのプログラマと同じように、なぜ検索エンジンは愚かなのか、なぜこの問題を解決できないのか疑問に思うでしょう。このようにして、彼はまた間違った考えに進んでしまいました。

セッションID

購入した商品をショッピングカートに保存するなど、訪問者の動きを追跡したい場合がよくあります。これを行うには、セッションを提供する必要があります。セッションは基本的に、訪問者がサイトで行ったことの簡単な履歴であり、ショッピングカート内の商品などのコンテンツが含まれる場合があります。訪問者のセッションが Web ページ間でクリックされないようにするためには、セッションをどこかに保存する必要があります。最も一般的な解決策は Cookie ですが、通常、検索エンジンは Cookie を保存しません。

この時点で何が起こるかというと、一部の Web サイトシステムでは、返す URL 内のセッション ID が使用されます。この時点で、各 Web サイトの内部リンクにはセッション ID が追加されます。セッション ID は一意であるため、新しい URL が生成され、コンテンツが重複します。

URLパラメータの追跡と並べ替えの使用

コンテンツが重複するもう 1 つの原因は、URL パラメーターの使用です。ただし、パラメーターはリンクの追跡などでページのコンテンツを変更しません。 http://www.example.com/keyword-x/とhttp://www.example.com/keyword-x/?source=rssは、検索エンジンにとって同じ URL ではないことがわかります。後者ではソースを追跡できるようになる可能性があり、ランキングが少し難しくなる可能性があり、非常に悪い悪影響を及ぼします。

これは、トラッキングパラメータに適用されるだけでなく、ページ上の実際のコンテンツを変更することなく、URL の後に追加するすべてのパラメータにも適用されます。パラメーターを含めると、Web ページ上の商品の順序が変更されたり、別のサイドバーが表示されたりして、コンテンツの重複が発生します。

コンテンツのスクレイピングとコンテンツの集約

重複コンテンツの原因の大部分はユーザー自身、または少なくともユーザーのサイトの責任ですが、場合によっては、ユーザーの同意なしに別のサイトがコンテンツを使用することもあります。常に元のコンテンツにリンクしているとは限らず、検索エンジンは同じ記事の別のバージョンを処理する必要があることを認識しません。

サイトの人気が高まるにつれて、クロールが増え、問題はさらに悪化します。

パラメータの順序

もう 1 つの一般的な理由は、CMS が簡潔でクリーンな URL を使用せず、/? を使用することです。 id=1&cat=2、ここでのIDは記事を示し、catはカテゴリを示します。ほとんどの Web サイト構築システムでは、この URL /? cat=2&id=1 も同じコンテンツを表示しますが、検索エンジンにとってはまったく異なるものになります。

コメントのページネーション

wordPRess システムまたは他のプログラムには、コメントをページ分割するオプションがあります。これにより、記事自体の URL と記事 URL+/comment-page-1/、/comment-page-2/ などで記事の内容が重複します。

ページを印刷する

cms が印刷ページや記事ページからのリンクを生成する場合、特に禁止しない限り、ほとんどの場合、Google はこれらのページを見つけます。 Google はどのバージョンを表示する必要がありますか?広告とその周囲のコンテンツを含むページ、または記事のみを含むページ。

WWW と非 WWW

これは古い質問ですが、両方のバージョンがアクセス可能な場合、検索エンジンは依然として WWW と非 WWW の重複コンテンツを混同することがあります。

まれな状況として、http と https のコンテンツが重複することがあります。

概念的な回避策「canonical」タグ

上で特定したように、同じコンテンツの異なる URL から生じる重複コンテンツは問題ですが、解決できます。通常、人間は記事を公開するときに、記事の正しい URL を簡単に伝えることができます。面白いことに、同じ会社の 3 人に質問すると、3 つの異なる答えが得られることがあります。

概要: 重複コンテンツは対処可能であり、対処する必要があります。

このような場合、最終的に URL は 1 つしか存在できないため、問題を解決する必要があります。記事の正しい URL は、検索エンジンによって Canonical と名付けられる場合があります。

重複したコンテンツを特定する

サイトに重複コンテンツがあるかどうかわからない場合があります。いくつかのヒントを教えてください。

Google ウェブマスターツール

Google ウェブマスターツールは、重複コンテンツを特定するための優れたツールです。 Google ウェブマスターツールにアクセスしてサイトを表示し、[診断] -> [HTML の提案] を確認すると、次のような内容が表示されます。

ページに重複したタイトルや重複した説明がある場合、そこにはほとんど良いことはありません。これをクリックすると、問題の特定に役立つタイトルまたは説明が重複している URL が表示されます。問題は、「キーワード -X」に関する記事が 2 つのカテゴリに表示されている場合、それぞれのタイトルが異なる可能性があることです。たとえば、タイトルは「キーワード X - カテゴリ X - サンプルサイト」および「キーワード X - カテゴリ Y - サンプルサイト」になります。 Google はこれらを重複したタイトルとして扱いませんが、検索すれば見つけることができます。

タイトルまたはその他の断片を検索する

この状況で非常に役立つ検索演算子がいくつかあります。キーワード「X」を含む Web サイト上の記事の URL をすべて検索したい場合は、Google 検索ボックスに次のコマンドを入力します。

site:example.com intitle：「キーワード X」

コードをコピーする

Google は、そのキーワードを含む example.com 上のすべてのページを表示します。タイトルセクションでより具体的なキーワードを検索すると、重複したコンテンツを見つけて削除することが容易になります。同じ方法を使用して、他の人の Web サイト上で自分のコンテンツが重複していることを特定することもできます。たとえば、記事の完全なタイトルは「キーワード X - なぜそれが素晴らしいのか」を検索できます。

タイトル：「キーワードX - それがすごい理由」

コードをコピーする

Google は、このタイトルを含むすべての Web サイトを返します。コンテンツスクレーパーによってはタイトルが変更される場合があるため、記事内の 1 つまたは 2 つの文を検索することもできます。場合によっては、検索すると、Google は結果の最後に次のプロンプトを表示することがあります。

これは、Google が重複したデータ結果を削除したことを示しています。これは明らかに良くありません。クリックを続けて他の結果を表示し、問題の解決に役立つかどうかを確認してください。

重複コンテンツを解決するための実践的な手順

記事に対してどの URL が正規化されるべきかを決定したら、正規化プロセスを開始する必要があります (冗長であることは承知しており、何度も言いました)。これは基本的に、検索エンジンにこの正規バージョンをできるだけ早く知らせて発見してもらうことを意味します。この問題を解決するには、次の 4 つの方法があります。

1. 重複したコンテンツを作成しない

2. 重複したコンテンツを正規 URL にリダイレクトする

3. 複製ページにリンク Canonical タグを追加します

4. 重複コンテンツページの正規 URL へのハイパーリンクを追加します。

重複したコンテンツを避ける

重複コンテンツの上記の原因については、簡単に修正する方法がいくつかあります。

1. URL のセッション ID?

通常はシステム設定でキャンセルできます

2. 印刷されたページがある

これはどれも必要ありません。印刷スタイルシートを使用できます。

3.WordPressでコメントのページネーションを使用する

この問題については、設定でコメントのページネーションをキャンセルできますか?

4. パラメータの異なる順序

同じ順序でソートするコードを作成するようにプログラマーに指示します (これは通常、URL ファクトリを指します)。

5. 追跡パラメータの問題

ほとんどの場合、パラメーターの代わりにハッシュ値 # を使用してマーケティングキャンペーンを追跡できます。

6. WWW と非 WWW の問題

必要なバージョンを選択し、リダイレクトをそのまま使用します。これはGoogleウェブマスターツールで設定できます。

問題を解決するのがそれほど簡単ではない場合でも、完全な重複コンテンツを防ぐ努力は価値があるかもしれません。これがこれまでのところ最良の解決策です。

301 リダイレクトの重複コンテンツ

場合によっては、使用するシステム記事コンテンツによる誤った URL の生成を完全に防ぐことはできませんが、それらをリダイレクトすることはできます。これがあなたにとって意味をなさない場合 (私も理解しています)、忘れずにプログラマーにこのことを伝える必要があります。さらに、重複コンテンツの問題を解決する場合は、すべての古い重複コンテンツ URL を適切な正規 URL にリダイレクトするようにしてください。

rel="Canonical" を使用してください

記事の重複の問題を解決したくない、または解決できない場合がありますが、それが間違った URL であることを知っておく必要があります。この特定の問題に対して、検索エンジンでもこれが導入されました。

正規の要素。ウェブサイトに配置される部分は次のようになります。

このプロセスは 301 リダイレクトよりも遅いため、Google の John Mueller が言及したhttp://www.seroundtable.com/google-canonical-tag-vs-301-redirect-12611.htmlを使用することをお勧めします。

元のバージョンにリンクしてください

上記のことができない場合は、コンテンツが表示されるサイトの「ヘッド」セクションを制御できない可能性があります。また、サイトの上部または下部に元のページへのリンクを追加することもお勧めします。ページ。 RSS フィードにリンクを追加したい記事が他にもいくつかあります。一部のクローラーはこれらのリンクを除外する場合がありますが、一部はそこに留まる可能性があり、Google が記事を指すリンクをいくつか数えた場合、これが記事の正確な正規バージョンであることもすぐにわかります。

概要: 重複コンテンツは対処可能であり、対処する必要があります。

重複したコンテンツはどこでも発生します。 1000 ページ以上あり、重複コンテンツがまったくない Web サイトにまだ出会ったことがありません。これには常に注意を払う必要があります。これは解決可能であり、大きな利益が得られる可能性があります。重複コンテンツに対処すると、高品質コンテンツページのランキングが急上昇する可能性があります。もちろん、最初にこれらの問題を特定し、プログラマーが問題の解決策を考え出すのを手助けし、さらには問題の解決を支援する必要があります。

翻訳者：志鵬

記事のソース: ライトイヤーフォーラム ( http://www.gnbase.com/thread-474-1.html )

英語原文： http://yoast.com/articles/duplicate-content/

注: この記事は、zhipeng、Lightyear Forum の許可を得てウェブマスターホームに転載されています。転載する場合は記事の出典とリンクを明記してください。