Das Internet wird immer cooler und die Popularität des WWW ist auf dem Höhepunkt. Die Veröffentlichung von Unternehmensinformationen und die Durchführung von E-Commerce im Internet haben sich von Mode zu Mode weiterentwickelt. Als Webmaster kennen Sie sich vielleicht gut mit HTML, Javascript, Java und ActiveX aus, aber wissen Sie, was ein Webroboter ist? Wissen Sie, welche Beziehung zwischen Web Robot und der von Ihnen gestalteten Homepage besteht?
Wanderer im Internet --- Web Robot
Manchmal werden Sie aus unerklärlichen Gründen feststellen, dass der Inhalt Ihrer Homepage in einer Suchmaschine indexiert ist, obwohl Sie noch nie Kontakt zu ihnen hatten. Tatsächlich ist es genau das, was Web Robot tut. Web Robots sind eigentlich Programme, die die Hypertextstruktur einer großen Anzahl von Internet-URLs durchqueren und den gesamten Inhalt einer Website rekursiv abrufen können. Diese Programme werden manchmal „Spider“, „Web Wanderer“, „Web-Würmer“ oder Web-Crawler genannt. Einige bekannte Suchmaschinenseiten (Search Engines) im Internet verfügen über spezielle Web-Roboter-Programme zur Vervollständigung der Informationssammlung, wie Lycos, Webcrawler, Altavista usw., sowie chinesische Suchmaschinenseiten wie Polaris, NetEase, GOYOYO, usw.
Web Robot ist wie ein ungebetener Gast, ob es Ihnen wichtig ist oder nicht, er wird der Verantwortung seines Herrn treu bleiben und hart und unermüdlich im World Wide Web arbeiten. Natürlich wird er auch Ihre Homepage besuchen und den Inhalt abrufen Homepage und generieren Sie das benötigte Datensatzformat. Vielleicht möchten Sie, dass der Inhalt einiger Homepages der Welt bekannt wird, andere Inhalte jedoch nicht gesehen oder indiziert werden sollen. Können Sie es einfach in Ihrem Homepage-Bereich „wuchern“ lassen? Können Sie den Aufenthaltsort von Web Robot steuern und kontrollieren? Die Antwort ist natürlich ja. Solange Sie den Rest dieses Artikels lesen, können Sie wie ein Verkehrspolizist sein, der Verkehrsschilder nacheinander aufstellt und Web Robot sagt, wie er Ihre Homepage durchsuchen soll, welche durchsucht werden können und auf welche nicht zugegriffen werden kann.
Tatsächlich kann Web Robot Ihre Worte verstehen.
Denken Sie nicht, dass Web Robot ohne Organisation und Kontrolle herumläuft. Viele Web Robot-Softwareprogramme bieten Website-Administratoren oder Webinhaltsproduzenten zwei Methoden, um den Aufenthaltsort von Web Robots einzuschränken:
1. Robots Exclusion Protocol
Administratoren von Internetseiten können eine speziell formatierte Datei auf der Site erstellen, um anzugeben, auf welchen Teil der Site zugegriffen werden kann von robots. Diese Datei wird im Stammverzeichnis der Website abgelegt, d. h. http://.../robots.txt .
2. Robots-META-Tag
Ein Webseitenautor kann ein spezielles HTML-META-Tag verwenden Die Seite kann indiziert, analysiert oder verlinkt werden.
Diese Methoden sind für die meisten Web-Roboter geeignet. Ob diese Methoden in der Software implementiert sind, hängt vom Roboterentwickler ab und es kann nicht garantiert werden, dass sie für jeden Roboter wirksam sind. Wenn Sie Ihre Inhalte dringend schützen müssen, sollten Sie über zusätzliche Schutzmethoden wie das Hinzufügen von Passwörtern nachdenken.
Verwenden des Robots-Ausschlussprotokolls
Wenn Robot eine Website wie http://www.sti.net.cn/ besucht, überprüft er zunächst die Datei http://www.sti.net.cn/robots.txt. Wenn diese Datei vorhanden ist, wird sie gemäß diesem Datensatzformat analysiert:
Benutzeragent: *
Nicht zulassen: /cgi-bin/
Nicht zulassen: /tmp/
Nicht zulassen: /~joe/
um zu bestimmen, ob die Dateien der Site abgerufen werden sollen. Diese Datensätze sind speziell für den Web-Roboter gedacht und werden diese Datei wahrscheinlich nie sehen. Fügen Sie daher keine HTML-Anweisungen wie „Wie geht es Ihnen“ und „Woher kommen Sie?“ hinzu andere falsche Grüße.
Es kann nur eine „/robots.txt“-Datei auf einer Site geben und jeder Buchstabe des Dateinamens muss vollständig aus Kleinbuchstaben bestehen. Jede einzelne „Disallow“-Zeile im Robot-Datensatzformat gibt eine URL an, auf die Robot nicht zugreifen soll. Jede URL muss eine separate Zeile einnehmen und fehlerhafte Sätze wie „Disallow: /cgi-bin/ /tmp/“ dürfen nicht erscheinen. Gleichzeitig dürfen in einem Datensatz keine Leerzeilen vorkommen, da Leerzeilen ein Zeichen dafür sind, dass mehrere Datensätze geteilt sind.
Die Zeile „Benutzeragent“ gibt den Namen des Roboters oder eines anderen Agenten an. In der User-Agent-Zeile hat „*“ eine besondere Bedeutung – alle Roboter.
Hier sind einige Beispiele für robot.txts, die
alle Robots auf dem gesamten Server ablehnen:
Benutzeragent: *
Nicht zulassen: /
Allen Robotern den Zugriff auf die gesamte Website erlauben:
Benutzeragent: *
Nicht zulassen:
Oder generieren Sie eine leere „/robots.txt“-Datei.
Teile des Servers sind für alle Roboter zugänglich
Benutzeragent: *
Nicht zulassen: /cgi-bin/
Nicht zulassen: /tmp/
Nicht zulassen: /private/
Einen bestimmten Roboter ablehnen:
Benutzeragent: BadBot
Nicht zulassen: /
Erlauben Sie nur einem Roboter den Besuch von:
Benutzeragent: WebCrawler
Nicht zulassen:
Benutzeragent: *
Nicht zulassen: /
Schließlich geben wir die robots.txt auf der Website http://www.w3.org/ an:
# Zur Verwendung durch search.w3.org
Benutzeragent: W3Crobot/1
Nicht zulassen:
Benutzeragent: *
Disallow: /Member/ # Dies ist nur W3C-Mitgliedern vorbehalten
Disallow: /member/ # Dies ist nur W3C-Mitgliedern vorbehalten
Disallow: /team/ # Dies ist nur auf das W3C-Team beschränkt
Disallow: /TandS/Member # Dies ist nur W3C-Mitgliedern vorbehalten
Nicht zulassen: /TandS/Team # Dies ist nur auf das W3C-Team beschränkt
Nicht zulassen: /Projekt
Nicht zulassen: /Systems
Nicht zulassen: /Web
Nicht zulassen: /Team
Verwendung des Robots-META-Tags Mit dem
Robots-META-Tag können Autoren von HTML-Webseiten angeben, ob eine Seite indiziert werden kann oder ob sie zum Auffinden weiterer verknüpfter Dateien verwendet werden kann. Derzeit implementieren nur einige Roboter diese Funktion.
Das Format des Robots META-Tags ist:
Wie andere META-Tags sollte es im HEAD-Bereich der HTML-Datei platziert werden:
...
Robots META-Tag-Anweisungen werden durch Kommas getrennt. Zu den verwendbaren Anweisungen gehören [NO]INDEX und [NO] FOLLOW. Die INDEX-Anweisung gibt an, ob ein Indexierungsroboter diese Seite indizieren kann; die FOLLOW-Anweisung gibt an, ob der Roboter Links zu dieser Seite folgen kann. Die Standardeinstellung ist INDEX und FOLLOW. Zum Beispiel:
Ein guter Website-Administrator sollte die Verwaltung von Robotern berücksichtigen, damit Roboter ihre eigene Homepage bedienen können, ohne die Sicherheit ihrer eigenen Webseiten zu gefährden.