robots.txt에 대해서는 대부분의 사람들이 '쓸 수 있다'라고 생각하고, 잘못 쓰면 문제가 생기기 때문에 아예 쓰지 않는 편이 나을 수도 있습니다. 실제로 검색 엔진 최적화에서 robots.txt는 여러 가지 놀라운 용도로 사용됩니다. 이제 robots.txt의 놀라운 용도를 하나씩 살펴보겠습니다.
1. 새 사이트를 생성할 때 스파이더가 목록 페이지를 크롤링하도록 안내합니다. 새로운 웹사이트가 처음 구축되면 크롤링을 위해 robots.txt에 웹사이트의 열 주소를 적습니다. 예시는 다음과 같습니다
# http://www.xxxxx.cn/ 웹사이트에 최적화된 robots.txt
사용자 에이전트: *
허용하지 않음: /
허용하지 않음: /plus/advancedsearch.php
허용하지 않음: /plus/car.php
허용하지 않음: /plus/carbuyaction.php
허용하지 않음: /plus/shops_buyaction.php
허용하지 않음: /plus/erraddsave.php
허용하지 않음: /plus/posttocar.php
허용하지 않음: /plus/disdls.php
허용하지 않음: /plus/feedback_js.php
허용하지 않음: /plus/mytag_js.php
허용하지 않음: /plus/rss.php
허용하지 않음: /plus/search.php
허용하지 않음: /plus/recommend.php
허용하지 않음: /plus/stow.php
허용하지 않음: /plus/count.php
허용하지 않음: /include
허용하지 않음: /templets
Dedecms의 기본 robots.txt가 사용되는데, 개인적으로 꽤 좋다고 생각합니다.
2. 품질이 낮은 페이지가 포함되지 않도록 차단합니다. 예를 들어, 웹 페이지 중 하나가 동적 페이지인 content.asp이고 매개변수 ID를 통해 다른 콘텐츠를 얻을 수 있습니다. 다양한 스타일로 페이지를 표시하지만 다른 사용자에게 동일한 콘텐츠를 표시하기 위해 매개변수 스타일을 추가해야 하는 경우 그러면 ID 1과 동일한 내용을 가진 페이지에 대해 여러 개의 링크가 있을 수 있습니다.
content.asp?id=1
content.asp?id=1&style=red
content.asp?id=1&style=녹색
이러한 연결의 경우 내용은 동일하지만 연결이 다르기 때문에 중복된 내용이 나타날 수 있습니다. 여기에서 다음과 같이 robots.txt를 통해 중복 페이지 포함을 차단할 수 있습니다.
사용자 에이전트: *
허용하지 않음: content.asp?id=*&style=*
3. 주요 검색 엔진에 사이트맵을 제출할 필요가 없습니다. Google, Microsoft 및 Yahoo는 모두 이미 이 robots.txt 확장을 지원합니다. 따라서 사이트맵 제출 시간도 절약됩니다.
robots.txt의 구체적인 작성 방법은 Baidu에서 제공하는 가이드(http://www.baidu.com/search/robots.html)를 참조하는 것이 좋습니다.
Webmaster.com에 처음 게시되었으며 재인쇄를 위해 http://www.zzyoua.cn/ 링크를 유지하십시오.