robots.txt 파일은 많은 웹사이트의 FTP에서 찾을 수 있습니다. 많은 웹마스터들은 이 파일이 스파이더 접근을 제한하는 파일이라는 것만 알고 있습니다. 이 파일에 다른 기능이 있는지 함께 알아볼까요?
로봇 파일이란 무엇입니까? 이 파일은 검색 엔진과 웹 사이트 사이의 통신 브리지입니다. 둘 사이에 합의된 구문 파일입니다. 검색 엔진이 웹 사이트를 크롤링할 때마다 로봇의 키와 마찬가지로 먼저 이 파일을 확인합니다. 문. 이 파일이 존재하지 않으면 검색 엔진 크롤링이 제한되지 않는다는 의미입니다. 이 파일이 있으면 파일에 지정된 요구 사항에 따라 크롤링됩니다. 일부 웹마스터는 웹사이트를 구축할 때 반드시 검색 엔진에 의해 색인이 생성되어야 하는데 왜 크롤링을 제한해야 합니까? 수집한 웹 사이트 또는 실질적인 콘텐츠가 없는 유사한 페이지의 경우 검색 엔진이 웹 사이트를 크롤링한 후 웹 사이트의 평가가 크게 줄어들며 SEO 효과가 없습니다. 그러나 로봇 파일은 스파이더에 알릴 수 있습니다. 이동하고 싶지 않은 페이지도 간접적으로 서버의 부하를 줄입니다.
이 파일에 대해 참고할 사항이 몇 가지 있습니다.
1. 파일 이름은 잘못 표기할 수 없으며 소문자여야 하며 접미사는 .txt여야 합니다.
2. 파일은 웹사이트의 루트 디렉터리(예: http://www.taofengyu.com/robots.txt ) 에 있어야 하며 액세스할 수 있어야 합니다.
3. 파일 내용의 구문은 정확해야 합니다. 일반적으로 User-agent 및 Disallow가 일반적으로 사용됩니다.
User-agent:*는 모든 검색 엔진 스파이더가 크롤링 및 포함되도록 허용됨을 의미합니다. Baidu가 귀하의 웹사이트를 포함하지 않도록 하려면 *를 "baiduspider"로 바꾸십시오. 그러면 Disallow에서 제한한 콘텐츠가 Baidu에서 크롤링 및 포함되지 않습니다. 거미가 포함되어 있습니다. 전체 사이트의 크롤링을 제한하려면 Disallow 파일을 "Disallow:/"로 작성해야 합니다. 특정 폴더에 있는 파일의 크롤링을 제한하려면 "Disallow:/admin"으로 작성해야 합니다. /". admin으로 시작하는 파일 크롤링을 제한하려면 "Disallow:/admin" 등을 씁니다. 특정 폴더의 파일 크롤링을 제한하고 싶습니다. 예를 들어, index.htm 파일을 admin 폴더에 저장하면 Disallow 구문이 "Disallow:/admin/index.htm"으로 작성됩니다. Disallow 뒤에 "/"가 없으면 웹사이트의 모든 페이지를 크롤링하고 포함할 수 있다는 의미입니다.
일반적으로 스파이더는 배경 관리 파일, 프로그램 기능, 데이터베이스 파일, 스타일 시트 파일, 템플릿 파일, 웹 사이트의 일부 사진 등을 크롤링할 필요가 없습니다.
4. Disallow 함수는 robots 파일에 반드시 존재해야 하며, 이는 이 파일을 설정하는 핵심 요소입니다.
이것이 로봇 파일의 중요성과 방법에 관한 모든 것입니다. 이것이 모든 사람에게 유용할 수 있기를 바랍니다.
이 기사는 Taofengyu 학생 용품 네트워크 http://www.taofengyu.com/ 에서 가져온 것입니다. 재인쇄할 때 출처를 표시하고 저자의 노고를 존중해 주십시오.
타오바오에 있는 작가의 어린이 장난감 개인 공간