robots.txt가 링크 크롤링을 차단하지 않도록 주의하세요.

저자：Eve Cole 업데이트 시간：2009-06-05 22:45:04

우리는 많은 웹마스터가 스파이더가 웹사이트에서 자신의 페이지를 크롤링하는 것을 방지하는 방법을 찾고 있으며 robots.txt 파일을 사용하여 이를 수행한다는 것을 알고 있습니다. 이는 실제로 좋은 방법이지만 문제도 발생합니다. Google/Yahoo!/MSN 또는 기타 검색 엔진 스파이더가 크롤링되는 것을 방지하기 위해 robots.txt를 사용할 때 혼란이 발생합니다. 다음은 간단한 설명입니다.

Robots.txt를 통한 크롤링 방지: 일부 URL 주소는 액세스를 원하지 않지만 여전히 크롤링되어 검색 엔진 결과 페이지에 표시될 수 있습니다.

META 태그의 NoIndex에 의해 차단됨: 액세스할 수 있지만 크롤링을 원하지 않으며 검색 결과에 나열되기를 원하지 않습니다.

페이지의 링크 크롤링을 비활성화하여 차단: 색인을 생성하기 위해 페이지를 크롤링하려는 다른 링크가 여전히 있기 때문에 이는 그다지 현명한 조치가 아닙니다. (관심하지 않으면 페이지에서 스파이더가 낭비됩니다.) 검색 시간을 늘리고 싶은 경우에도 이 작업을 수행할 수 있지만 그렇게 하면 검색 엔진 결과 페이지에 표시되지 않을 것이라고 생각하지 마세요.)

다음은 간단한 예입니다. 스파이더 크롤링은 robots.txt에서 제한되어 있지만 Google 검색 결과에는 계속 표시됩니다.

(robot.txt 파일은 하위 도메인에도 유효합니다)

about.com의 /library/nosearch/ 파일이 차단된 것을 확인할 수 있습니다. 다음 그림은 이 파일에 포함된 URL 주소를 Google에서 검색했을 때의 결과를 보여줍니다.

Google에는 여전히 소위 정리된 카테고리에 2,760개의 검색 결과가 있습니다. 그들은 이 페이지를 크롤링하지 않았기 때문에 그들이 본 것은 설명이나 제목 없이 간단한 링크 주소뿐이었습니다. 왜냐하면 Google은 이 페이지의 콘텐츠를 볼 수 없었기 때문입니다.

검색 엔진에 의해 크롤링되기를 원하지 않는 웹 페이지가 많은 경우 이러한 URL 주소는 여전히 계산되어 트래픽 및 기타 알려지지 않은 독립적 순위 요소를 축적하지만 링크가 쏟아져 나오는 링크는 절대 볼 수 없습니다. 아래 이미지를 참조하세요.

다음은 두 가지 편리한 방법입니다.

1. robots.txt에서 금지된 디렉터리에 연결할 때 nofollow 명령을 사용하여 이러한 링크 트래픽을 저장합니다.

2. 이러한 금지된 페이지(특히 외부 링크에서 가져온 페이지)의 고정 링크 흐름을 알고 있는 경우 메타의 NOINDEX 사용을 고려하고 대신 따라갈 수 있습니다. 그러면 스파이더가 이러한 링크 흐름을 건너뛰어 더 많은 페이지를 검색하는 데 시간이 걸립니다. 당신의 웹사이트가 필요합니다!

이 글은 reamo 개인 SEO 기술, 온라인 홍보 블로그에서 발췌한 것입니다: http://www.aisxin.cn 전재 시 출처를 명시해 주시기 바랍니다.