Robots.txt 파일은 단순한 TXT 텍스트이지만 웹 사이트 구축 및 웹 사이트 최적화에 중점을 두는 SEO 사용자는 모두 그 중요성을 알고 있습니다. 이 파일의 존재는 검색 엔진이 크롤링하기를 원하지 않는 페이지를 차단할 수도 있고 그림과 같을 수도 있습니다. 지도는 또한 거미의 길을 안내합니다. 스파이더는 사이트에 크롤링할 때 가장 먼저 접근하는 것은 Robots.txt 파일이 존재하는지 여부이며, 그 다음에는 내용에 있는 지침에 따라 인덱스 접근을 수행하고, 파일이 존재하지 않으면 그에 따라 순차적으로 접근한다. 페이지의 링크. 따라서 이를 사용하여 검색 엔진에서 색인화할 필요가 없는 일부 디렉토리를 차단하거나 Robots.txt의 사이트 맵을 설명하여 스파이더가 크롤링하도록 안내할 수 있습니다. 이는 웹사이트 보안이나 서버 대역폭 절약 및 색인화 안내에 매우 강력합니다. 자신의 장점을 살리고 단점을 피하는 효과를 얻었다고 할 수 있습니다. 아래에서 자세히 분석해 보겠습니다.
1. Robots.txt를 사용하여 서버 대역폭 절약
일반적으로 웹마스터가 이런 설정을 하는 경우는 거의 없습니다. 그러나 서버의 방문 횟수가 많고 콘텐츠가 너무 많으면 다음과 같은 폴더를 차단하는 등 서버의 대역폭을 절약하기 위한 설정이 필요합니다. 검색 엔진 인덱싱에 유용하며 실질적인 의미가 없으며 많은 대역폭을 낭비합니다. 사진 웹사이트의 경우 소비량이 훨씬 더 크기 때문에 Robots.txt를 사용하면 이 문제를 완전히 해결할 수 있습니다.
2. 웹사이트 보안 디렉토리 보호
일반적으로 Robots.txt를 설정할 때 관리 디렉터리, 데이터베이스, 백업 디렉터리를 설정해야 스파이더가 크롤링하는 것을 방지할 수 있습니다. 그렇지 않으면 데이터 유출이 쉽게 발생하여 웹사이트 보안에 영향을 미칠 수 있습니다. 물론, 관리자가 스파이더가 색인화하는 것을 원하지 않는 다른 디렉토리도 있으며, 검색 엔진이 이 색인화 규칙을 엄격하게 준수할 수 있도록 설정할 수도 있습니다.
3. 검색 엔진이 페이지를 색인화하는 것을 금지합니다.
웹사이트에는 항상 대중에게 보여주고 싶지 않은 일부 페이지가 있습니다. 이때 Robots.txt를 사용하여 스파이더가 해당 페이지를 색인화하는 것을 방지할 수 있습니다. 속도가 느려지고 기사가 업데이트되어 지속적이고 반복적으로 게시되었습니다. 3번 검색했는데 모든 결과가 검색 엔진에 의해 색인되었습니다. 어떻게 해야 합니까? 중복된 콘텐츠는 확실히 웹사이트 최적화에 좋지 않습니다. 이때 Robots.txt를 설정하여 중복된 페이지를 차단할 수 있습니다.
4. Robots.txt 링크 사이트 맵
스파이더가 웹 사이트를 방문할 때 가장 먼저 보는 것은 Robots.txt 파일이므로 여기에 사이트 맵을 설정할 수 있습니다. 이는 스파이더가 최신 정보를 색인화하고 많은 불필요한 실수를 피하는 데 도움이 됩니다. 예를 들어, 전문 웹 사이트 구축 회사인 Pilot Technology의 지도 페이지가 표시됩니다: http://www.****.net.cn/sitemap.xml 이를 Robots.txt에 추가하면 검색 엔진 색인 생성에 더욱 도움이 됩니다. . 지도 파일을 제출하기 위해 매일 검색 엔진에 갈 필요가 없습니다. 매우 편리하지 않나요?
5. 작성방법 및 주의사항
Robots.txt의 글쓰기 스타일은 표준화되어야 합니다. 글쓰기에 부주의한 사람들이 많습니다. 우선: User-agent:*를 작성해야 하며, *는 모든 검색 엔진을 의미합니다. Disallow: (파일 디렉터리)에는 대괄호가 포함되지 않습니다. 이는 검색 엔진 색인 생성이 금지됨을 의미합니다. 다음은 설명하는 예입니다.
예시 1:
사용자 에이전트:*
허용하지 않음:/
모든 검색 엔진 인덱스 액세스가 금지되었음을 나타냅니다.
예 2:
사용자 에이전트:*
허용하지 않음:/seebk
검색 엔진 인덱스가 seebk 디렉터리에 액세스하는 것이 금지되어 있음을 나타냅니다.
예시 3:
사용자 에이전트:baiduspider
사용자 에이전트:*
허용하지 않음:/
Baidu 스파이더 스택 인덱스 액세스만 허용됨을 나타냅니다. Baidu: baiduspider, Google: googlebot, Soso: sosospider, Alexa: ia_archiver, Yahoo: Yahoo Slurp
예시 4:
사용자 에이전트:*
금지:.jpg$
jpg 이미지의 핫링크를 방지하기 위해 대역폭이 충분하다면 이를 설정할 필요가 없습니다.
추신: Robots.txt를 최적화하여 강점을 극대화하고 약점을 피하세요. Robots.txt 를 잘 사용하면 웹사이트를 더 쉽게 최적화하고 원활하게 개발할 수 있습니다.
작성자 바이너리 네트워크 개인 공간