나는 이전에도 항상 세부 사항의 최적화를 강조해 왔습니다. 현재 Baidu의 웹 사이트 요구 사항은 귀하의 세부 사항이 잘 수행되었는지 확인하는 것입니다. 코드, 태그 등도 세부 사항이므로 로봇도 웹 사이트 세부 사항의 일부입니다. 이 웹사이트는 로봇이 무엇인지 모르는 새로운 웹마스터들에게 큰 도움이 될 것입니다. 이제 로봇의 작동에 대해 몇 가지 말씀드리겠습니다.
1. Robots.txt의 유래
먼저 Robots는 명령이나 지시가 아니라는 점을 이해해야 합니다. Robots는 웹사이트와 검색 엔진 간의 제3자 계약입니다. 초기에는 Robots.txt의 내용을 사용했습니다. 웹사이트의 개인 정보 보호는 웹사이트 루트 디렉터리의 A txt 파일에 있습니다.
2. Robots.txt의 역할
우리가 웹사이트를 출시할 때, 검색 엔진에 의해 거부할 수 없는 많은 요소가 공개될 것이며, 이로 인해 웹 페이지의 전반적인 품질이 저하되고 검색 엔진에서 우리 웹 사이트에 대한 나쁜 인상을 받게 될 것입니다. 로봇의 역할은 이러한 요소를 차단하는 것입니다. 거부할 수 없는 요인으로 인해 스파이더가 이를 공개하지 못하게 되는데, 어떤 페이지를 차단해야 할까요?
1. 콘텐츠가 없는 일부 페이지 차단: 이를 명확히 하기 위해 등록 페이지, 로그인 페이지, 쇼핑 페이지, 게시 페이지, 메시지 페이지, 검색 홈페이지 등의 예를 들어보겠습니다. 404 오류 페이지가 있는 경우 그것도 막아야지.
2. 중복 페이지 차단: 웹사이트에 콘텐츠는 동일하지만 경로가 다른 두 페이지가 있는 경우 로봇을 사용하여 페이지를 차단해야 하지만 Google 웹마스터를 사용할 수는 없습니다. 페이지를 차단하는 도구. 차단된 페이지 수를 직접 확인하세요.
3. 일부 데드링크 페이지 차단
공통된 특성을 가진 페이지만 차단하면 됩니다. 스파이더가 주소를 크롤링할 수 없다는 것이 주소를 크롤링할 수 없다는 의미는 아닙니다. 물론 주소를 크롤링할 수 있는지 여부는 서로 다른 개념입니다. 예를 들어, 처리할 수 없는 경로로 인해 발생한 데드 링크를 차단해야 합니다.
4. 일부 긴 경로 차단: 로봇을 사용하여 URL 입력 상자를 초과하는 긴 경로를 차단할 수 있습니다.
3. Robots.txt 사용
1. Robots.txt 생성
로컬에서 새 메모장 파일을 만들고 이름을 Robots.txt로 지정한 다음 이 파일을 루트 디렉터리에 넣으면 Robots.txt가 생성됩니다. Dreamweaver와 같은 일부 오픈 소스 프로그램은 Robots와 함께 제공됩니다. 루트 디렉토리에서만 다운로드하면 됩니다.
2. 공통문법
사용자 에이전트 구문은 검색 엔진 크롤러를 정의하는 데 사용됩니다. Disallow는 금지된 것을 의미합니다. 허용이란 허용됨을 의미합니다.
먼저 검색엔진 크롤러인 스파이더나 로봇에 대해 알아봅시다.
Baidu 스파이더의 경우 Baiduspider in Robots를 작성하고 Google 로봇의 경우 Googlebot을 작성합니다.
작성 방법을 소개하겠습니다. 첫 번째 줄은 먼저 검색 엔진을 정의하는 것입니다.
User-agent: Baiduspider (로봇을 작성할 때 콜론 뒤에 공백이 있어야 한다는 사실에 특별한 주의를 기울여야 합니다. 동시에 모든 검색 엔진을 정의하려면 Baiduspider 대신 *를 사용해야 합니다. )
허용하지 않음: /admin/
이 문장의 의미는 Baidu Spider에게 내 웹 사이트의 admin 폴더에 웹 페이지를 포함하지 말라고 지시하는 것입니다. admin 다음에 슬래시를 제거하면 의미가 완전히 바뀌게 됩니다. 내 웹사이트의 모든 웹페이지는 내 루트 디렉토리의 admin 폴더에 있습니다.
Allow는 허용됨 또는 금지되지 않음을 의미하며 일반적으로 Disallow와 함께 사용됩니다. 예를 들어 디렉토리 보호 및 유연한 응용 프로그램을 용이하게 하는 것입니다. , 가자 / SEO/ 폴더에 100,000개의 파일이 있고 크롤링해야 할 파일이 두 개 있습니다. 수만 개의 코드를 작성할 수 없으므로 작업하는 데 몇 줄만 있으면 됩니다. 함께.
User-agent: *(모든 검색 엔진을 정의)
허용하지 않음: /seo/(seo 폴더 포함 비활성화)
허용: /seo/ccc.php
허용: /seo/ab.html
이 두 파일을 동시에 캡처하여 포함할 수 있도록 허용하면 4줄의 코드로 문제를 해결할 수 있습니다. 어떤 사람들은 Disallow를 앞에 두는 것이 더 표준화된 것인지 아니면 Disallow를 앞에 두는 것이 더 표준화된 것인지 묻습니다. 앞쪽에 배치되어 있습니다.
이 기사는 원래 http://www.51diaoche.net에서 작성되었습니다. 재인쇄를 환영합니다. 원저자를 표시해 주세요.
편집장 : 양양 작가 Longfeng Hoisting Machinery의 개인 공간