인터넷은 점점 더 시원해지고 있으며, WWW의 인기는 최고조에 달하고 있습니다. 인터넷을 통한 기업 정보 공개와 전자상거래는 패션에서 패션으로 진화했습니다. 웹마스터로서 HTML, Javascript, Java, ActiveX를 잘 아시겠지만, 웹로봇이 무엇인지 아시나요? 당신이 디자인하는 홈페이지와 웹로봇이 어떤 관계인지 아시나요?
인터넷 위의 방랑자 --- 웹 로봇
때로는 홈페이지에 접속한 적이 없는데도 홈페이지의 콘텐츠가 검색 엔진에 색인되어 있는 것을 알 수 없는 경우가 있습니다. 사실 이것이 바로 Web Robot이 하는 일입니다. 웹 로봇은 실제로 수많은 인터넷 URL의 하이퍼텍스트 구조를 탐색하고 웹사이트의 모든 콘텐츠를 반복적으로 검색할 수 있는 프로그램입니다. 이러한 프로그램은 "스파이더", "웹 원더러", "웹 웜" 또는 웹 크롤러라고도 합니다. 인터넷상의 일부 유명 검색 엔진 사이트(검색 엔진)에는 Lycos, Webcrawler, Altavista 등과 같이 정보 수집을 완료하는 전문적인 웹 로봇 프로그램이 있으며 Polaris, NetEase, GOYOYO와 같은 중국 검색 엔진 사이트도 있습니다. 등.
웹 로봇은 초대받지 않은 손님과 같습니다. 당신이 신경을 쓰든 안 쓰든 주인의 책임에 충실하며 월드 와이드 웹에서 열심히 일할 것입니다. 홈페이지에 필요한 기록 형식을 생성합니다. 어쩌면 일부 홈 페이지 콘텐츠를 세상에 알리고 싶지만 일부 콘텐츠는 보거나 색인화하고 싶지 않을 수도 있습니다. 웹 로봇의 행방을 명령하고 제어할 수 있습니까? 대답은 물론 그렇습니다. 이 기사의 나머지 부분을 읽는 한 당신은 도로 표지판을 하나씩 배치하고 Web Robot에게 홈페이지 검색 방법, 검색할 수 있는 홈페이지와 액세스할 수 없는 홈페이지를 알려주는 교통 경찰관처럼 될 수 있습니다.
사실 웹 로봇은 당신의 말을 이해할 수 있습니다.
웹 로봇이 조직과 통제 없이 돌아다닌다고 생각하지 마십시오. 많은 웹 로봇 소프트웨어는 웹 사이트 관리자 또는 웹 콘텐츠 제작자가 웹 로봇의 위치를 제한할 수 있는 두 가지 방법을 제공합니다.
1. 로봇 제외 프로토콜
인터넷 사이트 관리자는 사이트의 어느 부분에 액세스할 수 있는지 표시하기 위해 사이트에 특수 형식의 파일을 생성할 수 있습니다. 이 파일은 사이트의 루트 디렉토리(예: http://.../robots.txt) 에 있습니다.
2. 로봇 META 태그
웹 페이지 작성자는 웹 페이지의 존재 여부를 표시하기 위해 특수한 HTML META 태그를 사용할 수 있습니다. 페이지를 색인화하거나 분석하거나 링크할 수 있습니다.
이러한 방법은 대부분의 웹 로봇에 적합합니다. 이러한 방법이 소프트웨어에 구현되는지 여부는 로봇 개발자에 따라 다르며 모든 로봇에 효과적이라는 보장은 없습니다. 콘텐츠를 긴급하게 보호해야 하는 경우 비밀번호 추가와 같은 추가 보호 방법을 고려해야 합니다.
로봇 배제 프로토콜 사용하기
로봇이 http://www.sti.net.cn/ 과 같은 웹 사이트를 방문할 때 먼저 http://www.sti.net.cn/robots.txt 파일을 확인합니다. 이 파일이 존재하는 경우 다음 기록 형식에 따라 분석됩니다:
User-agent: *
허용하지 않음: /cgi-bin/
허용하지 않음: /tmp/
허용하지 않음: /~조/
사이트의 파일을 검색해야 하는지 여부를 결정합니다. 이 기록은 특별히 Web Robot이 볼 수 있는 것입니다. 일반 시청자는 이 파일을 절대 볼 수 없으므로 <img src=*> 또는 "어떻게 지내세요?"와 같은 HTML 문을 추가하지 마세요. 다른 거짓 인사.
사이트에는 "/robots.txt" 파일이 하나만 있을 수 있으며 파일 이름의 각 문자는 모두 소문자여야 합니다. Robot의 레코드 형식에 있는 각각의 개별 "Disallow" 줄은 Robot이 액세스하지 못하게 하려는 URL을 나타냅니다. 각 URL은 별도의 줄을 차지해야 하며 "Disallow: /cgi-bin/ /tmp/"와 같은 잘못된 문장은 나타날 수 없습니다. 동시에 빈 줄은 여러 레코드를 나누는 표시이므로 레코드에 빈 줄이 나타날 수 없습니다.
User-agent 줄은 로봇이나 다른 에이전트의 이름을 나타냅니다. User-agent 줄에서 '*'는 모든 로봇이라는 특별한 의미를 갖습니다.
다음은전체 서버의 모든 로봇을 거부하는
robots.txt의 몇 가지 예입니다
.
사용자 에이전트: *
허용하지 않음: /
모든 로봇이 전체 사이트에 액세스하도록 허용합니다.
사용자 에이전트: *
허용하지 않음:
또는 빈 "/robots.txt" 파일을 생성하세요.
서버의 일부는 모든 로봇에 접근 가능
사용자 에이전트: *
허용하지 않음: /cgi-bin/
허용하지 않음: /tmp/
Disallow: /private/
특정 로봇을 거부합니다:
사용자 에이전트: BadBot
허용하지 않음: /
하나의 로봇만 방문하도록 허용합니다.
사용자 에이전트: WebCrawler
허용하지 않음:
사용자 에이전트: *
허용하지 않음: /
마지막으로 http://www.w3.org/ 사이트에 robots.txt를 제공합니다.
# search.w3.org에서 사용
사용자 에이전트: W3Crobot/1
허용하지 않음:
사용자 에이전트: *
허용하지 않음: /Member/ # 이는 W3C 회원에게만 제한됩니다.
허용하지 않음: /member/ # 이는 W3C 회원에게만 제한됩니다.
허용하지 않음: /team/ # 이는 W3C 팀으로만 제한됩니다.
허용하지 않음: /TandS/Member # 이는 W3C 회원에게만 제한됩니다.
허용하지 않음: /TandS/Team # 이는 W3C 팀으로만 제한됩니다.
허용하지 않음: /프로젝트
허용하지 않음: /시스템
허용하지 않음: /웹
허용하지 않음: /팀
Robots META 태그 사용
Robots META 태그를 사용하면 HTML 웹 페이지 작성자는 페이지를 색인화할 수 있는지 또는 더 많은 링크된 파일을 찾는 데 사용할 수 있는지 여부를 나타낼 수 있습니다. 현재 일부 로봇만이 이 기능을 구현합니다.
Robots META 태그의 형식은 다음과 같습니다.
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
다른 META 태그와 마찬가지로 HTML 파일의 HEAD 영역에 배치해야 합니다.
<html>
<머리>
<meta name="로봇" content="noindex,nofollow">
<meta name="description" content="이 페이지는 ....">
<제목>...</제목>
</head>
<본문>
...
로봇 META 태그 명령은 쉼표로 구분됩니다. 사용할 수 있는 명령에는 [NO]INDEX 및 [NO] FOLLOW가 있습니다. INDEX 지시어는 인덱싱 로봇이 이 페이지를 인덱싱할 수 있는지 여부를 나타내고, FOLLOW 지시어는 로봇이 이 페이지에 대한 링크를 따라갈 수 있는지 여부를 나타냅니다. 기본값은 INDEX 및 FOLLOW입니다. 예를 들어:
<meta name="로봇" content="index,follow">
<meta name="로봇" content="noindex,follow">
<meta name="robots" content="index,nofollow">
<meta name="robots" content="noindex,nofollow">
훌륭한 웹 사이트 관리자는 로봇이 자체 웹 페이지의 보안을 손상시키지 않고 자체 홈페이지를 제공할 수 있도록 로봇 관리를 고려해야 합니다.