Robots.txt 파일을 사용하는 경우 친구들이 어느 정도 들어봤거나 직접 작성했을 수도 있습니다. 사실 아직까지는 robots.txt 파일을 직접 작성해본 적이 없어서 못 쓰는 것은 아닙니다. 단지 블로그에 스파이더에 의해 크롤링되는 것을 막아야 할 부분이 없다고 느낄 뿐입니다. 그리고 개인 독립 블로그에서는 데드 링크가 발생할 확률이 매우 낮아야 하고, 데드 링크를 너무 많이 다룰 필요도 없기 때문에 그럴 필요도 없다는 것도 다들 아셔야 할 것 같습니다. 그러나 robots.txt 파일 작성 방법은 개인 웹마스터가 반드시 익혀야 할 기술 중 하나이며, 그 활용도는 여전히 매우 넓습니다. 자세한 소개는 여기까지인데, 스스로 리뷰라고 볼 수 있습니다.
robots.txt 파일이란 무엇입니까?
파일 이름을 보면 .txt 접미사가 붙는 것으로 보입니다. 또한 이 파일은 메모장이라는 것도 알아야 합니다. 영어를 좀 아는 사람이라면 누구나 알고 있을 로봇이라는 뜻입니다. 우리에게 이 로봇은 검색 엔진 로봇을 의미합니다. 이름을 보면 이 파일이 거미가 읽을 수 있도록 특별히 작성한 파일이라는 것을 짐작할 수 있습니다. 그 기능은 해당 열이나 페이지를 크롤링할 필요가 없음을 스파이더에게 알려주는 것입니다. 물론 특정 스파이더의 액세스를 직접 차단할 수도 있습니다. 스파이더가 가능한 한 빨리 파일 내용을 읽을 수 있도록 이 파일은 웹사이트의 루트 디렉터리에 배치됩니다.
로봇 파일의 역할
실제로 로봇 파일은 웹 사이트 내의 데드 링크를 차단하기 위해 가장 일반적으로 사용됩니다. 웹사이트에 죽은 링크가 너무 많으면 웹사이트의 중요성에 영향을 미친다는 사실을 모두가 알아야 합니다. 그러나 웹 사이트의 죽은 링크를 정리하는 것은 번거롭지 않지만 여전히 시간이 많이 걸립니다. 특히 웹 사이트에 죽은 링크가 많으면 정리하는 것이 매우 힘들 것입니다. 로봇 파일의 유용성은 반영될 것입니다. 스파이더가 크롤링하는 것을 방지하기 위해 이러한 죽은 링크를 형식에 따라 파일에 직접 작성할 수 있습니다. 일부 웹사이트 콘텐츠에는 웹마스터가 스파이더가 크롤링하는 것을 원하지 않는 URL이나 파일이 포함되어 있으며 직접 차단할 수도 있습니다. 거미를 보호하기 위해 일반적으로 덜 사용됩니다.
로봇 파일을 작성하는 방법
이 점이 더 중요해야 합니다. 뭔가 잘못 적어서 차단하려고 했으나 실패하고, 캡쳐하고 싶은 글을 썼는데 제때 찾지 못하면 큰 손실을 입게 됩니다. 우선, 허용(Allow)과 허용하지 않음(Disallow)이라는 두 가지 태그를 알아야 합니다. 하나는 허용되고 다른 하나는 허용되지 않습니다.
사용자 에이전트: *
허용하지 않음:
또는
사용자 에이전트: *
허용하다:
이 두 콘텐츠 단락은 모든 것이 크롤링되도록 허용됨을 나타냅니다. 실제로 웹 사이트에 크롤링할 항목이 몇 개만 있고 허용 태그를 사용하지 않는 한 Disallow 태그는 URL과 파일을 차단하는 데 사용됩니다. 이 User-agent: 뒤에는 스파이더 이름이 옵니다. 모든 사람은 주류 검색 엔진 스파이더 이름에 익숙해야 합니다. Soso Spider를 예로 들어 보겠습니다. Sosospider.
Soso Spider를 차단하고 싶을 때:
사용자 에이전트: sosospider
허용하지 않음: /
위의 권한과 비교하면 이 쉴드 스파이더는 "/"가 하나만 더 있고 그 의미가 극적으로 바뀌었다는 것을 알 수 있습니다. 따라서 작성 시 주의가 필요하며, 추가로 작성한다고 해서 스파이더 자체를 차단할 수는 없습니다. 슬래시. 하지만 모르겠어요. 또한 user-agent에서: 스파이더 이름 뒤에 "*"가 붙는 경우 이는 모든 스파이더에 대한 것임을 의미합니다.
검색 엔진 스파이더가 디렉토리를 크롤링하는 것을 방지하기 위한 설정 코드는 다음과 같습니다.
사용자 에이전트: *
허용하지 않음: /디렉토리/
디렉터리 크롤링을 방지하려면 디렉터리 이름에 "/"를 주의해야 합니다. "/"가 없으면 해당 디렉터리 페이지와 디렉터리 아래 페이지에 대한 액세스가 차단된다는 의미이며, " /"는 차단된 디렉터리로 진입한다는 의미입니다. 아래 콘텐츠 페이지에서는 이 두 가지 점을 명확히 구분해야 합니다. 여러 디렉터리를 차단하려면 다음을 사용해야 합니다.
사용자 에이전트: *
허용하지 않음: /directory1/
허용하지 않음: /directory2/
이 형식은 /directory 1/directory 2/ 형식일 수 없습니다.
예를 들어 .jpg 형식의 이미지 크롤링을 방지하기 위해 스파이더가 특정 유형의 파일에 액세스하는 것을 방지하려면 다음과 같이 설정할 수 있습니다.
사용자 에이전트: *
허용하지 않음: .jpg$
위 내용은 전체 사이트의 로봇 파일에 대한 Shanghai SEO Xiaoma의 작성 방법입니다. 로봇 작성 방법의 종류와 주의 사항에 대해서만 설명합니다. 타겟 스파이더 차단이나 기타 작성 방법과 같은 구체적인 작성 방법에 대한 설명은 조금 적습니다. , 그러나 허용과 허용하지 않음의 의미를 생각하면 글쓰기의 다른 많은 의미를 파생할 수 있습니다. 특정 웹페이지에 대한 로봇 메타 웹페이지 태그를 작성하는 방법도 있지만 일반적으로 많이 사용되지는 않습니다.
위의 내용은 Shanghai seo pony http://www.mjlseo.com/ 에서 편집한 것입니다. 재인쇄할 때 알려주시기 바랍니다. 감사합니다.
편집장 : 양양 작가 샤오마 라오마의 개인 공간