Die neueste Entdeckung ist, dass Baidu Spider ein Dummkopf ist! Deprimierend! Öffnen Sie das IIS-Protokoll der Website und überprüfen Sie es. Ich habe Baidu Spider heruntergeladen und war schockiert: Baidu Spider ist wirklich ein Idiot!
1. Schauen wir uns zunächst an, wie dumm Baidu Spider ist. Das Folgende ist die Aktivitätsaufzeichnung von Baidu Spider auf meiner Website.
1. 2009-06-03 21:26:05 W3SVC962713505 218.60.130.19 GET /robots.txt - 80 - 123.125.64.15 Baiduspider+(+http://www.baidu.com/search/spider.htm) 404 0 64 ( Hinweis: 404 bedeutet, dass „robots.txt nicht gefunden“ wurde.
2. 2009-06-03 21:26:49 W3SVC962713505 218.60.130.19 GET /index.asp - 80 - 123.125.64.15 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 64 ( Hinweis: 200 zeigt an, dass die Homepage-Datei index.asp gefunden wurde)
Daraus ist ersichtlich, dass die Aktivitäten der Baidu-Spinne zunächst auf die Website gehen, um die Datei robots.txt zu finden. Wenn diese nicht vorhanden ist, suchen Sie nach dem Vergleich mit der derzeit in Baidu enthaltenen Homepage Es wird festgestellt, dass es keine Änderung gegenüber dem Original gibt, und wird dann verlassen. Wer möchte nicht wie die meisten Webmaster von Zeit zu Zeit Schnappschüsse von in Baidu enthaltenen Seiten aktualisieren? Es scheint, dass die einzige Möglichkeit, robots.txt zu vervollständigen, darin besteht, Baidu-Spider dazu zu bringen, auf meiner Website herumzulaufen.
2. Schreiben Sie robots.txt und sehen Sie sich mit Baidu auf Ihrer Website um.
robots.txt Diese Datei muss geschrieben werden. Wissen Sie alle, wie man es konkret schreibt? Wenn nicht, werde ich es noch einmal wiederholen.
Beispiel 1. Deaktivieren Sie den Zugriff aller Suchmaschinen auf Teile der Website
Benutzeragent: *
Nicht zulassen: /
Beispiel 2. Erlauben Sie allen Robotern den Zugriff
(Oder Sie können auch eine leere Datei „/robots.txt“ erstellen)
Benutzeragent: *
Nicht zulassen:
oder
Benutzeragent: *
Erlauben: /
(Anmerkung aus der Tabelle: Dies ist notwendig. Erstellen Sie keine leere Datei. Das ist Baidu-Rauchen. Am besten schreiben Sie den folgenden Satz.)
Beispiel 3. Verbieten Sie Baiduspider nur den Zugriff auf Ihre Website
Benutzeragent: Baiduspider
Nicht zulassen: /
Beispiel 4. Erlauben Sie Baiduspider nur den Zugriff auf Ihre Website
Benutzeragent: Baiduspider
Nicht zulassen:
Benutzeragent: *
Nicht zulassen: /
Beispiel 5. Spidern den Zugriff auf bestimmte Verzeichnisse verbieten
In diesem Beispiel verfügt die Website über drei Verzeichnisse, die den Suchmaschinenzugriff einschränken, d. h. der Roboter greift nicht auf diese drei Verzeichnisse zu. Es ist zu beachten, dass jedes Verzeichnis separat deklariert werden muss und nicht als „Disallow: /cgi-bin/ /tmp/“ geschrieben werden kann.
Benutzeragent: *
Nicht zulassen: /cgi-bin/
Nicht zulassen: /tmp/
Nicht zulassen: /~joe/
Beispiel 6. Erlauben Sie den Zugriff auf einige URLs in einem bestimmten Verzeichnis
Benutzeragent: *
Erlauben: /cgi-bin/see
Erlauben: /tmp/hi
Erlauben: /~joe/look
Nicht zulassen: /cgi-bin/
Nicht zulassen: /tmp/
Nicht zulassen: /~joe/
Beispiel 7. Verwenden Sie „*“, um den Zugriff auf URLs einzuschränken
Der Zugriff auf alle URLs mit dem Suffix „.htm“ (einschließlich Unterverzeichnisse) im Verzeichnis /cgi-bin/ ist verboten.
Benutzeragent: *
Nicht zulassen: /cgi-bin/*.htm
Beispiel 8. Verwenden Sie „$“, um den Zugriff auf URLs einzuschränken
Es dürfen nur URLs mit dem Suffix „.htm“ aufgerufen werden.
Benutzeragent: *
Zulassen: .htm$
Nicht zulassen: /
Beispiel 9. Deaktivieren Sie den Zugriff auf alle dynamischen Seiten der Website
Benutzeragent: *
Nicht zulassen: /*?*
Beispiel 10. Baiduspider das Crawlen aller Bilder auf der Website verbieten
Es dürfen nur Webseiten gecrawlt werden, Bilder dürfen nicht gecrawlt werden.
Benutzeragent: Baiduspider
Nicht zulassen: .jpg$
Nicht zulassen: .jpeg$
Nicht zulassen: .gif$
Nicht zulassen: .png$
Nicht zulassen: .bmp$
Beispiel 11. Erlauben Sie Baiduspider nur das Crawlen von Webseiten und Bildern im GIF-Format
Das Aufnehmen von Webseiten und Bildern im GIF-Format ist erlaubt, das Aufnehmen von Bildern in anderen Formaten ist jedoch nicht gestattet.
Benutzeragent: Baiduspider
Zulassen: .gif$
Nicht zulassen: .jpg$
Nicht zulassen: .jpeg$
Nicht zulassen: .png$
Nicht zulassen: .bmp$
Beispiel 12. Verbieten Sie Baiduspider nur das Erfassen von Bildern im JPG-Format
Benutzeragent: Baiduspider
Nicht zulassen: .jpg$
Schauen Sie sich als Referenz die von der Tabelle selbst geschriebene robots.txt an
Code kopieren
Benutzeragent: *
Nicht zulassen: /admin/
Nicht zulassen: /Soft/
Erlauben: /images/
Erlauben: /html/
Zulassen: .htm$
Erlauben: .php$
Zulassen: .asp$
Zulassen: .gif$
Zulassen: .jpg$
Zulassen: .jpeg$
Zulassen: .png$
Zulassen: .bmp$
Erlauben: /
erklären:
1. Ermöglichen Sie die Indizierung durch verschiedene Suchmaschinen
2. Deaktivieren Sie die Indizierung des Verzeichnisses /admin. Dies ist natürlich verboten.
3. Deaktivieren Sie wichtige Sicherheitsverzeichnisse wie /soft
4. Erlauben Sie den Zugriff auf das Verzeichnis /images
5. Erlauben Sie den Zugriff auf das Verzeichnis /html
6. Erlauben Sie den Zugriff auf alle HTM-, PHP-, ASP- und HTML-Dateien
7. Ermöglicht das Aufnehmen von Bildern in den Formaten GIF, JPG, JPEG, PNG und BMP
8. Ermöglicht das Crawlen von Dateien im Stammverzeichnis der Website.
Okay, laden Sie Ihre robots.txt auf die Website und das Verzeichnis hoch und warten Sie, bis Baidu Spider wiederkommt. Wenn es soweit ist, wird dieser gute Führer diesen Idioten zu Ihrem Bahnhof bringen und dort herumlaufen. Der Autor dieses Artikels wird vom MOFHOT-Außenhandels-Bekleidungsgroßhandelsnetzwerk www.mofhot.com gesammelt und veröffentlicht. Bitte hinterlassen Sie einen Link in A5. Vielen Dank. Es ist nicht einfach, einen Artikel zu veröffentlichen.