중복 콘텐츠: 원인 및 해결 방법

저자：Eve Cole 업데이트 시간：2010-12-16 17:49:00

Google과 같은 검색 엔진에는 문제가 있습니다. 그들은 그것을 "중복 콘텐츠"라고 부릅니다. 귀하의 콘텐츠는 웹사이트의 다양한 페이지에 표시되며 어떤 주소에 표시해야 할지 모릅니다. 이러한 중복 콘텐츠는 사람들이 콘텐츠의 다양한 버전에 링크할 때 특히 문제가 됩니다. 이 문서의 목적은 중복 콘텐츠의 다양한 원인을 이해하고 각 원인을 해결하는 방법을 찾는 데 도움을 주는 것입니다.

콘텐츠가 중복되는 이유

1. URL 개념에 대한 오해

2. 세션 ID

3. URL 추적 매개변수

4. 콘텐츠 검색 및 콘텐츠 집계

5. 매개변수 순서

6. 댓글 페이지 매기기

7. 페이지 인쇄

8. www vs. www 없음

개념적 해결 방법 "표준" 태그

1. 중복 콘텐츠 식별

2. 구글 웹마스터 도구

3. 제목을 검색하는 검색 명령

중복 콘텐츠를 해결하는 실제 단계

1. 중복된 콘텐츠를 피하세요

2. 301 리디렉션

4. rel="canonical" 태그를 사용하세요

5. 원본 콘텐츠 링크

요약: 중복된 콘텐츠는 해결될 수 있고 해결되어야 합니다.

교차로에 서 있고 동일한 목적지를 가리키는 도로 표지판에 두 개의 다른 방향이 있는 것처럼 중복된 콘텐츠를 생각할 수 있습니다. 게다가 목적지가 다르면 상황은 더욱 악화됩니다. 독자로서 당신은 콘텐츠의 출처가 무엇인지 상관하지 않지만 검색 엔진은 동일한 콘텐츠를 두 번 표시하는 것을 원하지 않기 때문에 검색 결과에 표시할 콘텐츠를 선택해야 합니다.

예를 들어, -x/ 키워드 에 대한 내용은 이 상황이 허구가 아니며 이 문제는 많은 cms 시스템에 존재합니다. 예를 들어, 귀하의 기사가 일부 네티즌에 의해 수집되어 재게시되었고, 일부 사람들은 귀하의 첫 번째 URL로 링크되고, 일부 사람들은 귀하의 두 번째 URL로 링크되었습니다. 여기서 중복 콘텐츠 문제가 발생합니다. 해당 키워드에 대한 모든 링크가 하나의 URL을 가리키면 해당 키워드가 홈페이지에 포함될 확률이 훨씬 높아집니다.

중복 콘텐츠의 원인

콘텐츠 중복이 발생할 수 있는 요인은 다양합니다. 대부분은 기술적인 문제로, 누군가가 원본 출처를 언급하지 않고 동일한 콘텐츠를 서로 다른 두 곳에 배치하기로 결정하는 경우는 흔하지 않으며 대부분의 사람들은 이를 불편하게 여길 것입니다. 기술적인 이유도 매우 좋습니다. 그 이유의 대부분은 프로그래머가 브라우저나 사용자의 입장에 서지 않고, 검색 엔진 스파이더에 관심을 두지 않고 단지 프로그래머의 생각을 따른다는 점입니다. 앞서 언급한 기사가 http://www.example.com/keyword-x/ 및 http://www.example.com/article-category/keyword-x/ 에 있다고 가정해 보겠습니다. 프로그래머에게 물어보면 그는 한 번만 나타난다고 말할 것입니다.

URL 개념에 대한 오해

그렇다면 프로그래머는 미친 것인가? 아뇨, 아뇨, 그 사람이 또 다른 언어를 말하더군요. 여러분이 보는 전체 웹사이트는 아마도 데이터베이스 기반일 것입니다. 해당 데이터베이스에는 기사가 하나만 있으며 웹 사이트 프로그램은 데이터베이스의 기사가 다른 URL을 통해 액세스될 수 있도록 허용합니다. 프로그래머의 눈에는 데이터베이스의 기사에 URL이 아닌 고유 ID가 있다는 것이 유일한 신호이기 때문입니다. 검색 엔진의 경우 URL은 기사의 고유 식별자입니다. 프로그래머에게 이 사실을 말하면 그는 문제의 원인을 이해할 것이고, 그러면 나와 함께 일하는 대부분의 프로그래머처럼 그는 왜 검색 엔진이 멍청하고 왜 이 문제를 해결할 수 없는지 궁금해할 것입니다. 그리하여 그는 또 다른 잘못된 생각에 이르렀습니다.

세션 ID

방문자가 구매한 품목을 장바구니에 저장하는 등 방문자의 움직임을 추적하려는 경우가 많습니다. 이렇게 하려면 세션을 제공해야 합니다. 세션은 기본적으로 방문자가 사이트에서 수행한 작업에 대한 간략한 기록이며 여기에는 장바구니에 담긴 항목과 같은 콘텐츠가 포함될 수 있습니다. 방문자의 세션이 한 웹 페이지에서 다른 웹 페이지로 클릭되는 것을 방지하려면 세션을 어딘가에 저장해야 합니다. 가장 일반적인 해결책은 쿠키이지만 검색 엔진은 일반적으로 쿠키를 저장하지 않습니다.

이 시점에서 일어나는 일은 일부 웹사이트 시스템이 URL의 세션 ID를 사용하여 반환한다는 것입니다. 이 시점에서 각 웹 사이트의 내부 링크에는 세션 ID가 추가되며 세션 ID는 고유하므로 새 URL이 생성되어 콘텐츠가 중복됩니다.

추적 및 정렬 URL 매개변수 사용

콘텐츠 중복이 발생하는 또 다른 원인은 URL 매개변수를 사용하는 것입니다. 그러나 매개변수는 추적 링크와 같이 페이지 콘텐츠를 변경하지 않습니다. http://www.example.com/keyword-x/ 및 http://www.example.com/keyword-x/?source=rss 는 검색 엔진에 대한 동일한 URL이 아님을 알 수 있습니다. 후자를 사용하면 소스를 추적할 수 있어 순위가 약간 더 어려워지고 매우 나쁜 부정적인 영향을 미칠 수 있습니다.

이는 추적 매개변수에만 적용되는 것이 아니라 페이지의 실제 콘텐츠를 변경하지 않고 URL 뒤에 추가하는 모든 매개변수에도 적용됩니다. 매개변수를 포함하면 웹페이지의 제품 순서가 변경되거나 다른 사이드바가 표시되어 콘텐츠가 중복될 수 있습니다.

콘텐츠 스크래핑 및 콘텐츠 집계

중복된 콘텐츠가 발생하는 원인의 대부분은 귀하 자신의 잘못이거나 적어도 귀하의 사이트의 잘못이지만 때로는 다른 사이트에서 귀하의 동의 없이 귀하의 콘텐츠를 사용하는 경우도 있습니다. 항상 원본 콘텐츠에 연결되는 것은 아니며, 검색 엔진은 동일한 기사의 다른 버전을 처리해야 한다는 사실을 모릅니다.

사이트의 인기가 높아질수록 크롤링이 점점 더 많아지고 문제는 더욱 악화됩니다.

매개변수 순서

또 다른 일반적인 이유는 CMS가 간결하고 깔끔한 URL을 사용하지 않고 /? id=1&cat=2, 여기서 ID는 기사를 나타내고, cat은 카테고리를 나타냅니다. 대부분의 웹사이트 구축 시스템에서 이 URL은 /? cat=2&id=1도 동일한 콘텐츠를 렌더링하지만 검색 엔진에서는 완전히 다릅니다.

댓글 페이지 매김

wordPRess 시스템이나 기타 프로그램에는 댓글에 페이지를 매기는 옵션이 있습니다. 이로 인해 기사 자체의 URL과 기사 URL+/comment-page-1/, /comment-page-2/ 등에서 기사 내용이 중복됩니다.

페이지 인쇄

귀하의 cms가 귀하의 기사 페이지에서 인쇄 페이지와 링크를 생성하는 경우, 귀하가 특별히 금지하지 않는 한 대부분의 경우 Google은 해당 페이지를 찾습니다. Google은 어떤 버전을 표시해야 하나요? 광고와 주변 콘텐츠가 포함된 페이지 또는 기사만 포함된 페이지입니다.

WWW 대 비WWW

이것은 오래된 질문이지만 두 버전 모두에 액세스할 수 있는 경우 검색 엔진이 여전히 WWW와 비WWW 중복 콘텐츠를 혼동하는 경우가 있습니다.

흔하지 않은 상황은 http와 https 중복 콘텐츠입니다.

개념적 해결 방법 "표준" 태그

위에서 살펴본 바와 같이 동일한 콘텐츠에 대해 서로 다른 URL로 인해 발생하는 중복 콘텐츠도 문제이지만 해결될 수 있습니다. 인간은 일반적으로 기사를 게시할 때 기사의 올바른 URL이 무엇인지 쉽게 알려줄 수 있습니다. 재미있는 점은 같은 회사에 있는 세 사람에게 질문하면 세 가지 다른 답변을 얻을 때도 있습니다.

요약: 중복된 콘텐츠는 해결될 수 있고 해결되어야 합니다.

이러한 경우에는 결국 하나의 URL만 있을 수 있으므로 문제를 해결해야 합니다. 기사의 올바른 URL은 검색 엔진에서 Canonical로 명명될 수 있습니다.

중복 콘텐츠 식별

사이트에 중복된 콘텐츠가 있는지 모를 수도 있습니다. 몇 가지 팁을 알려드리겠습니다.

Google 웹마스터 도구

Google 웹마스터 도구는 중복 콘텐츠를 식별하는 데 유용한 도구입니다. Google 웹마스터 도구로 이동하여 사이트를 보면 진단 -> HTML 제안을 확인하면 다음과 같은 내용이 표시됩니다.

페이지에 중복된 제목이나 설명이 있으면 아무 소용이 없습니다. 이를 클릭하면 문제를 식별하는 데 도움이 되는 중복된 제목이나 설명이 있는 URL이 표시됩니다. 문제는 "키워드 -X"에 대한 기사가 두 가지 카테고리에 표시되는 경우 제목이 다를 수 있다는 것입니다. 예를 들어 제목은 '키워드 X - 카테고리 X - 예시 사이트' 및 '키워드 X - 카테고리 Y - 예시 사이트'입니다. Google은 해당 항목을 중복된 제목으로 처리하지 않지만 검색을 통해 찾을 수 있습니다.

제목 또는 기타 단편 찾기

이런 상황에서 매우 유용한 여러 검색 연산자가 있습니다. 웹사이트에서 키워드 "X"가 포함된 기사의 모든 URL을 찾으려면 Google 검색창에 다음 명령을 입력하세요.

사이트:example.com 제목:"키워드 X"

코드 복사

Google은 해당 키워드가 포함된 example.com의 모든 페이지를 표시합니다. 제목 섹션에서 검색하는 키워드가 구체적일수록 중복된 콘텐츠를 찾아 제거하는 것이 더 쉬워집니다. 또한 동일한 방법을 사용하여 다른 사람의 웹사이트에서 귀하의 중복 콘텐츠를 식별할 수 있습니다. 예를 들어 기사의 전체 제목은 키워드 X입니다. 이 기사가 멋진 이유는 다음과 같습니다.

intitle:"키워드 X - 그것이 멋진 이유"

코드 복사

Google은 이 제목이 포함된 모든 웹사이트를 반환합니다. 일부 콘텐츠 스크레이퍼는 제목을 변경할 수 있으므로 때로는 기사에서 한두 개의 문장을 검색할 수도 있습니다. 경우에 따라 검색할 때 Google은 결과 끝에 다음 메시지를 표시할 수 있습니다.

이는 Google이 중복된 데이터 결과를 삭제했다는 표시입니다. 이는 분명히 좋지 않습니다. 계속 클릭하여 다른 결과를 보고 이러한 문제를 해결하는 데 도움이 되는지 확인할 수 있습니다.

중복 콘텐츠를 해결하는 실제 단계

어떤 URL이 귀하의 기사에 대해 정규화되어야 하는지 결정한 후에는 일부 정규화 프로세스를 시작해야 합니다(알겠습니다. 제가 장황하고 여러 번 언급한 내용입니다). 이는 기본적으로 검색 엔진에 알리고 가능한 한 빨리 이 표준 버전을 발견하도록 하는 것을 의미합니다. 이 문제를 해결하는 네 가지 방법은 다음과 같습니다.

1. 중복된 콘텐츠를 만들지 마세요

2. 중복 콘텐츠를 표준 URL로 리디렉션

3. 중복 페이지에 링크 Canonical 태그를 추가합니다.

4. 중복 콘텐츠 페이지의 표준 URL에 하이퍼링크를 추가합니다.

중복된 콘텐츠를 피하세요

위와 같은 중복 콘텐츠의 원인을 해결하는 몇 가지 쉬운 방법이 있습니다.

1. URL에 세션 ID가 있나요?

일반적으로 시스템 설정에서 취소할 수 있습니다.

2. 인쇄된 페이지가 있습니다.

이 중 어느 것도 필요하지 않습니다. 인쇄 스타일시트를 사용할 수 있습니다.

3. WordPress에서 주석 페이지 매김 사용

이 문제의 경우 설정에서 댓글 페이지 매김을 취소할 수 있나요?

4. 다양한 매개변수 순서

프로그래머에게 동일한 순서로 정렬하는 코드를 작성하라고 지시합니다(일반적으로 URL 팩토리를 나타냄).

5. 추적 매개변수 문제

대부분의 경우 매개변수 대신 해시 값을 사용하여 마케팅 캠페인을 추적할 수 있습니다.

6. WWW 대 비WWW 문제

원하는 버전을 선택하고 리디렉션을 유지하세요. Google 웹마스터 도구에서 설정할 수 있습니다.

문제를 해결하기가 쉽지 않은 경우에도 완전한 중복 콘텐츠를 방지하기 위해 노력할 가치가 있을 수 있습니다. 이것이 지금까지 최고의 솔루션입니다.

301 중복 콘텐츠 리디렉션

어떤 경우에는 사용하는 시스템 기사 콘텐츠가 잘못된 URL을 생성하는 것을 완전히 방지할 수는 없지만 리디렉션할 수는 있습니다. 이것이 당신에게 이해가 되지 않는다면 (그리고 나는 이해합니다) 이것을 당신의 프로그래머에게 언급해야 한다는 것을 기억해야 합니다. 또한 중복 콘텐츠 문제를 해결하는 경우 모든 기존 중복 콘텐츠 URL을 적절한 표준 URL로 리디렉션해야 합니다.

rel="Canonical"을 사용하세요.

때로는 중복된 기사 문제를 해결하고 싶지 않거나 해결할 수 없는 경우도 있지만 잘못된 URL이라는 것을 알아야 합니다. 이 특정 문제에 대해 검색 엔진도 다음을 도입했습니다.

정식 요소. 웹사이트에 배치되는 부분은 다음과 같습니다.

이 프로세스는 301 리디렉션보다 느리므로 Google의 John Mueller가 http://www.seroundtable.com/google-canonical-tag-vs-301-redirect-12611.html 에서 언급한 301을 사용하는 것이 좋습니다.

원래 버전으로 다시 연결

위의 작업을 수행할 수 없다면 사이트의 콘텐츠가 표시되는 "헤드" 섹션을 제어할 수 없는 것일 수 있습니다. 또한 원본 페이지의 상단이나 하단에 링크를 추가하는 것도 좋은 생각입니다. 페이지. RSS 피드에 링크를 추가하고 싶은 다른 기사가 있습니다. 일부 크롤러는 이러한 링크를 필터링할 수 있지만 일부는 그대로 유지될 수 있으며, Google이 귀하의 기사를 가리키는 여러 링크를 계산하면 이것이 기사의 정확한 표준 버전임을 빠르게 알 수 있습니다.

요약: 중복된 콘텐츠는 해결될 수 있고 해결되어야 합니다.

중복된 콘텐츠는 어디에서나 발생합니다. 나는 아직까지 1000페이지가 넘는 페이지에 중복된 내용이 하나도 없는 웹사이트를 본 적이 없습니다. 이를 위해서는 항상 주의가 필요합니다. 이는 해결 가능하며 보상도 클 수 있습니다. 중복 콘텐츠를 해결하면 고품질 콘텐츠 페이지 순위가 급등할 수 있습니다. 물론, 먼저 이러한 문제를 식별하고, 프로그래머가 문제에 대한 해결책을 찾도록 돕고, 심지어 문제를 해결하도록 도와야 합니다.

번역 작성자: zhipeng

기사 출처: Lightyear 포럼( http://www.gnbase.com/thread-474-1.html )

영어 원문: http://yoast.com/articles/duplicate-content/

참고: 이 기사는 Lightyear Forum의 zhipeng의 승인을 받아 웹마스터 홈에 재인쇄되었습니다. 재인쇄가 필요한 경우 기사의 출처와 링크를 명시해 주시기 바랍니다.