오래전부터 아빈에게 글을 쓰기로 약속했는데 도와주셔서 감사한데, 며칠 전 주오샤오가 로봇에 관해 질문하는 걸 보고 편집을 하게 됐어요. 로봇의 몇 가지 상황에 대해 이야기해 보겠습니다. robots.txt 파일은 웹사이트의 루트 디렉터리에 위치하며 웹사이트에 접속할 때 검색 엔진이 보는 첫 번째 파일입니다. 검색 스파이더는 사이트를 방문할 때 먼저 사이트의 루트 디렉터리에 robots.txt가 있는지 확인합니다. 파일이 있으면 검색 로봇은 파일 내용을 기반으로 액세스 범위를 결정합니다. 존재하지 않으면 모두 검색 스파이더는 비밀번호로 보호되지 않은 웹사이트의 모든 페이지에 액세스할 수 있습니다. 모든 웹사이트에는 크롤링이 허용되지 않는 웹사이트 항목과 크롤링 및 크롤링이 허용되는 페이지를 검색 엔진에 알려주는 로봇이 있어야 합니다.
로봇의 여러 기능:
1. 모든 검색 엔진이 정보를 크롤링하지 못하도록 차단합니다. 귀하의 웹 사이트가 단지 개인 웹 사이트이고 너무 많은 사람들이 이에 대해 알기를 원하지 않는 경우 로봇을 사용하여 귀하가 작성하는 개인 블로그와 같은 모든 검색 엔진을 차단할 수 있습니다. 모든 검색 엔진을 차단할 수 있습니다
사용자 에이전트: *
허용하지 않음: /
2. 특정 검색 엔진만 정보를 크롤링하도록 하려면 로봇을 사용하여 설정할 수 있습니다. 예: 내 웹사이트는 Baidu에만 포함되고 다른 검색 엔진에는 포함되지 않기를 원합니다. 로봇을 사용하여 설정할 수 있습니다.
사용자 에이전트: Baiduspider
허용하다:
사용자 에이전트: *
허용하지 않음: /
3. 다양한 와일드카드를 사용하여 웹사이트를 적절하게 구성할 수 있습니다. 예를 들어 웹사이트에서 내 사진을 모두 크롤링하지 않도록 하려면 $를 사용하여 설정할 수 있습니다. 일반적으로 일반적인 이미지 형식은 BMP, JPG, GIF, JPEG 및 기타 형식입니다. 이때 설정은 다음과 같습니다.
사용자 에이전트: *
허용하지 않음: /.bmp$
허용하지 않음: /.jpg$
허용하지 않음: /.gif$
허용하지 않음: /.jpeg$
4. 또한 *를 사용하여 관련 URL을 차단할 수 있습니다. 일부 웹사이트에서 검색 엔진이 동적 주소를 크롤링하는 것을 허용하지 않는 경우 이 * 와일드카드를 사용하여 일치 설정을 지정할 수 있습니다. 일반적인 상황에서 동적 URL의 특징 중 하나는 "?"가 있다는 것입니다. 이때 이 기능을 사용하여 일치 차단을 수행할 수 있습니다.
사용자 에이전트: *
허용하지 않음: /*?*
5. 웹사이트가 수정되어 폴더 전체가 사라진 경우, 이 경우 폴더 전체를 차단하는 것을 고려해야 합니다. 로봇을 사용하여 전체 폴더를 차단할 수 있습니다. 예를 들어 웹사이트의 ab 폴더가 개정으로 인해 삭제된 경우 다음과 같이 설정할 수 있습니다.
사용자 에이전트: *
허용하지 않음: /ab/
6. 웹사이트에 포함하고 싶지 않은 폴더가 있지만, 이 폴더에 포함이 허용된 정보가 있는 경우. 그런 다음 로봇 허용을 사용하여 설정할 수 있습니다. 예를 들어 내 웹 사이트의 ab 폴더는 검색 엔진에서 크롤링이 허용되지 않지만 ab 폴더에 크롤링이 허용되는 정보 CD가 있습니다. 이때 로봇을 사용하여 설정할 수 있습니다.
사용자 에이전트: *
허용하지 않음: /ab/
허용:/ab/cd
7. 사이트 맵의 위치는 로봇에서 정의할 수 있으며 이는 웹사이트를 포함하는 데 도움이 됩니다.
사이트맵:<사이트맵 위치>
8. 때때로 내 웹사이트에 로봇이 설정되어 있지만 이 URL 주소가 포함되어 있는 것을 발견할 수도 있습니다. 그 이유는 이 검색 엔진의 스파이더가 일반적으로 URL을 통해 웹페이지로 크롤링하기 때문입니다. 이런 URL은 제목과 설명이 없는데 바이두가 이 URL을 크롤링하면 제목과 설명이 나오므로 로봇을 설정했는데 효과가 없다고 하시는 분들이 많습니다. 실제 상황은 링크가 크롤링되지만 페이지의 콘텐츠가 포함되지 않는 것입니다.
웹 사이트의 홈페이지는 가중치가 가장 높으며 링크를 통해 가중치가 전달됩니다. 가중치가 높아야 하는 페이지에 가중치를 더 잘 전달하기 위해 로봇을 설정하고 일부 페이지는 검색을 통해 크롤링 및 크롤링할 필요가 없습니다. 엔진.
편집 담당: Chen Long 저자︶ Shitou Peng의 개인 공간