최근 발견한 바는 Baidu Spider가 바보라는 것입니다! 최근 Baidu의 웹사이트 포함이 매우 느리다는 사실을 발견했습니다. 기본적으로 며칠 후에 홈페이지의 새로운 스냅샷을 찍는데, 기본적으로 다른 페이지는 포함되지 않습니다! 우울해요! 웹사이트의 IIS 로그를 열고 확인해 보세요. 저는 Baidu Spider를 다운로드하고 충격을 받았습니다. Baidu Spider는 정말 바보입니다!
1. 먼저 Baidu Spider가 얼마나 멍청한지 살펴보겠습니다. 다음은 내 홈페이지에서 바이두 스파이더의 활동 기록이다.
1. 2009-06-03 21:26:05 W3SVC962713505 218.60.130.19 GET /robots.txt - 80 - 123.125.64.15 Baiduspider+(+http://www.baidu.com/search/spider.htm) 404 0 64 ( 참고: 404는 robots.txt를 찾을 수 없음을 나타냅니다.
2. 2009-06-03 21:26:49 W3SVC962713505 218.60.130.19 GET /index.asp - 80 - 123.125.64.15 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 64 ( 참고: 200은 홈페이지 파일 index.asp가 발견되었음을 나타냅니다.
이를 통해 바이두 스파이더의 활동은 먼저 웹사이트에 가서 robots.txt 파일을 찾고, 존재하지 않는다면 현재 바이두에 포함된 홈페이지와 비교해 본 후 해당 웹사이트의 index.asp를 찾아본다는 것을 알 수 있다. , 원본과 아무런 변화가 없는 것으로 확인된 후 떠납니다. Baidu에 포함된 페이지의 스냅샷을 수시로 업데이트하고 싶지 않은 대부분의 웹마스터처럼 robots.txt를 완성하는 유일한 방법은 Baidu 스파이더가 내 사이트를 돌아다니도록 유도하는 것입니다.
2. robots.txt를 작성하고 Baidu를 사용하여 사이트를 둘러보세요.
robots.txt 이 파일은 반드시 작성해야 합니다. 구체적으로 어떻게 쓰는지 다들 아시죠? 그렇지 않다면 다시 반복하겠습니다.
예 1. 모든 검색 엔진이 웹사이트의 어떤 부분에도 접근하지 못하도록 비활성화
사용자 에이전트: *
허용하지 않음: /
예시 2. 모든 로봇의 접근 허용
(또는 빈 파일 "/robots.txt"를 만들 수도 있습니다)
사용자 에이전트: *
허용하지 않음:
또는
사용자 에이전트: *
허용하다: /
(표 참고 사항: 필수입니다. 빈 파일을 만들지 마세요. 바이두 스모킹입니다. 다음 문장을 작성하는 것이 가장 좋습니다.)
예 3. Baiduspider의 웹사이트 접근만 금지
사용자 에이전트: Baiduspider
허용하지 않음: /
예 4. Baiduspider가 귀하의 웹사이트에 접근하도록 허용하세요.
사용자 에이전트: Baiduspider
허용하지 않음:
사용자 에이전트: *
허용하지 않음: /
예 5. 스파이더가 특정 디렉토리에 액세스하는 것을 금지합니다.
이 예에서 웹사이트에는 검색 엔진 액세스를 제한하는 세 개의 디렉터리가 있습니다. 즉, 로봇은 이 세 개의 디렉터리에 액세스하지 않습니다. 각 디렉토리는 별도로 선언해야 하며 "Disallow: /cgi-bin/ /tmp/"로 작성할 수 없다는 점에 유의해야 합니다.
사용자 에이전트: *
허용하지 않음: /cgi-bin/
허용하지 않음: /tmp/
허용하지 않음: /~조/
예시 6. 특정 디렉터리의 일부 URL에 대한 액세스 허용
사용자 에이전트: *
허용: /cgi-bin/see
허용: /tmp/hi
허용: /~joe/look
허용하지 않음: /cgi-bin/
허용하지 않음: /tmp/
허용하지 않음: /~조/
예 7. "*"를 사용하여 URL에 대한 액세스를 제한합니다.
/cgi-bin/ 디렉토리에 있는 ".htm" 접미사(하위 디렉토리 포함)가 있는 모든 URL에 대한 액세스는 금지됩니다.
사용자 에이전트: *
허용하지 않음: /cgi-bin/*.htm
예 8. "$"를 사용하여 URL에 대한 액세스 제한
접미사가 ".htm"인 URL만 액세스할 수 있습니다.
사용자 에이전트: *
허용: .htm$
허용하지 않음: /
예 9. 웹사이트의 모든 동적 페이지에 대한 액세스 비활성화
사용자 에이전트: *
허용하지 않음: /*?*
예 10. Baiduspider가 웹사이트의 모든 이미지를 크롤링하는 것을 금지합니다.
웹페이지만 크롤링이 허용되며 이미지는 크롤링이 허용되지 않습니다.
사용자 에이전트: Baiduspider
허용하지 않음: .jpg$
허용하지 않음: .jpeg$
허용하지 않음: .gif$
허용하지 않음: .png$
허용하지 않음: .bmp$
예 11. Baiduspider가 웹 페이지 및 .gif 형식 이미지만 크롤링하도록 허용
웹 페이지 및 gif 형식의 이미지 캡처는 허용되지만, 다른 형식의 이미지 캡처는 허용되지 않습니다.
사용자 에이전트: Baiduspider
허용: .gif$
허용하지 않음: .jpg$
허용하지 않음: .jpeg$
허용하지 않음: .png$
허용하지 않음: .bmp$
예 12. Baiduspider가 .jpg 형식 이미지만 가져오는 것을 금지합니다.
사용자 에이전트: Baiduspider
허용하지 않음: .jpg$
참고로 표 자체에 작성된 robots.txt를 살펴보세요.
코드 복사
사용자 에이전트: *
허용하지 않음: /admin/
허용하지 않음: /소프트/
허용: /이미지/
허용: /html/
허용: .htm$
허용: .php$
허용: .asp$
허용: .gif$
허용: .jpg$
허용: .jpeg$
허용: .png$
허용: .bmp$
허용하다: /
설명하다:
1. 다양한 검색엔진에 의한 인덱싱 허용
2. /admin 디렉토리의 인덱싱을 비활성화합니다. 이는 웹사이트의 백엔드입니다. 물론 이는 금지되어 있습니다.
3. /soft와 같은 중요한 보안 디렉터리를 비활성화합니다.
4. /images 디렉터리에 대한 액세스를 허용합니다.
5. /html 디렉터리에 대한 액세스를 허용합니다.
6. 모든 htm, php, asp, html 파일에 대한 액세스를 허용합니다.
7. gif, jpg, jpeg, png, bmp 형식의 사진을 가져올 수 있습니다.
8. 웹사이트의 루트 디렉터리에 있는 파일을 크롤링할 수 있습니다.
좋아, robots.txt를 웹사이트와 디렉토리에 업로드하고 Baidu Spider가 다시 올 때까지 기다리세요. 때가 되면 이 좋은 가이드가 그 바보를 당신의 역으로 데려가서 돌아다닐 것입니다. 이 글의 작성자는 MOFHOT 대외 무역 의류 도매 네트워크 www.mofhot.com 에서 수집 및 게시하고 있습니다. A5에 링크를 남겨주세요. 감사합니다~ 글을 게시하는 것이 쉽지 않습니다.