아시다시피 사이트에 액세스하거나 색인을 생성할 때 효율적으로 작동하기 위해 항상 스파이더 엔진에 의존할 수는 없습니다. 자체 포트에 전적으로 의존함으로써 스파이더는 많은 중복 콘텐츠를 생성하고 중요한 페이지를 가비지, 사용자에게 표시해서는 안 되는 인덱스 링크 항목으로 처리하고 다른 문제를 갖게 됩니다. 메타 로봇 태그, robots.txt, 표준 태그 등과 같이 웹사이트 내에서 스파이더의 활동을 완전히 제어할 수 있는 몇 가지 도구가 있습니다.
오늘은 로봇제어기술 활용의 한계에 대해 말씀드리겠습니다. 스파이더가 특정 페이지를 크롤링하는 것을 방지하기 위해 웹마스터는 때때로 여러 로봇 제어 기술을 사용하여 검색 엔진이 특정 웹 페이지에 액세스하는 것을 금지합니다. 불행하게도 이러한 기술은 때때로 서로 충돌할 수 있습니다. 반면에 이러한 제한은 특정 데드 링크를 숨길 수 있습니다.
그렇다면 페이지의 로봇 파일에 대한 액세스가 차단되거나 noindex 태그 및 표준 태그와 함께 사용되면 어떻게 될까요?
빠른 검토
주제에 들어가기 전에 주류 로봇의 몇 가지 제한 기술을 살펴보겠습니다.
메타봇 태그
Meta Robots 태그는 검색 엔진 로봇에 대한 페이지 순위 설명을 설정합니다. 메타 로봇 태그는 HTML 파일의 헤드에 배치되어야 합니다.
표준 태그
표준 태그는 웹페이지의 HTML 헤더에 있는 페이지 수준 메타 태그입니다. 이는 어떤 URL이 올바르게 표시되는지 검색 엔진에 알려줍니다. 그 목적은 검색 엔진이 중복 콘텐츠를 크롤링하는 것을 방지하는 동시에 중복 페이지의 무게를 표준화된 페이지에 집중시키는 것입니다.
코드는 다음과 같습니다.
<link rel="표준" href=" http://example.com/quality-wrenches.htm"/ >
X 로봇 태그
2007년부터 Google과 기타 검색 엔진은 스파이더에게 파일 크롤링 및 색인 생성의 우선순위를 지정하는 방법으로 X-Robots-Tag를 지원했습니다. 이 태그는 PDF 파일과 같은 HTML이 아닌 파일의 색인 생성을 제어하는 데 유용합니다.
로봇 태그
robots.txt를 사용하면 일부 검색 엔진이 웹사이트에 들어갈 수 있지만 특정 페이지가 크롤링되고 색인이 생성되는지 여부는 보장되지 않습니다. SEO상의 이유가 아닌 한, robots.txt는 실제로 필요한 경우나 사이트에 차단해야 하는 로봇이 있는 경우에만 사용할 가치가 있습니다. 나는 항상 메타데이터 태그 "noindex"를 대신 사용하는 것을 권장합니다.
갈등을 피하다
로봇 진입을 동시에 제한하기 위해 두 가지 방법을 사용하는 것은 현명하지 않습니다.
· 메타로봇 '노인덱스'
· 표준 태그(다른 URL을 가리키는 경우)
· Robots.txt 허용하지 않음
· X-Robots-Tag (x 로봇 태그)
검색 결과에 페이지를 유지하려는 만큼 항상 두 가지 접근 방식보다 한 가지 접근 방식이 더 좋습니다. 단일 URL에 다수의 로봇 경로 제어 기술이 있을 경우 어떤 일이 발생하는지 살펴보겠습니다.
Meta Robots 'noindex' 및 Canonical 태그
한 URL의 권한을 다른 URL로 전달하는 것이 목표이고 다른 더 좋은 방법이 없다면 Canonical 태그만 사용할 수 있습니다. 메타 로봇 태그의 "NOINDEX"로 인해 문제를 일으키지 마십시오. 두 로봇 방법을 사용하는 경우 검색 엔진에 Canonical 태그가 전혀 표시되지 않을 수 있습니다. 로봇의 noindex 태그로 인해 Canonical 태그가 표시되지 않으므로 체중 이동 효과는 무시됩니다!
메타 로봇 'noindex' 및 X-Robots-Tag 'noindex'
이러한 라벨은 중복됩니다. 이 두 태그가 같은 페이지에 배치되면 SEO에 부정적인 영향만 미칠 수 있습니다. 메타봇 'noindex'에서 헤더 파일을 변경할 수 있다면 xbot 태그를 사용하면 안 됩니다.
Robots.txt 메타 로봇 'noindex'(&M)를 허용하지 않습니다.
내가 본 가장 일반적인 충돌은 다음과 같습니다.
내가 Meta Robots의 "NOINDEX"를 선호하는 이유는 페이지가 색인화되는 것을 효과적으로 방지하는 동시에 이 페이지에 연결된 더 깊은 페이지에 가중치를 전달하기 때문입니다. 이는 윈윈(win-win) 접근 방식입니다. robots.txt 파일은 검색 엔진이 페이지의 정보(및 그 안에 있는 중요한 내부 링크)를 보는 것을 완전히 제한할 수 없으며, 특히 URL이 색인화되는 것을 제한할 수 없습니다. 이 주제에 대해 별도의 기사를 쓴 적이 있습니까?
두 태그를 모두 사용하면 robots.txt는 메타 로봇 'noindex'를 스파이더에게 보이지 않게 만듭니다. robots.txt의 허용 안 함의 영향을 받게 되며 Meta Robots 'noindex'의 모든 이점을 놓치게 됩니다.
기사의 출처는 www.leadseo.cn 입니다. 웹사이트 최적화 전문가인 Shanghai Leadseo입니다. 재인쇄 시 출처를 꼭 남겨주세요!
담당 편집자: Chen Long 저자 Frank12의 개인 공간