การค้นพบล่าสุดคือ Baidu Spider เป็นคนโง่! เมื่อเร็ว ๆ นี้ฉันพบว่าการรวมเว็บไซต์ของ Baidu นั้นช้ามาก โดยพื้นฐานแล้วฉันถ่ายภาพหน้าแรกใหม่หลังจากผ่านไปสองสามวันและโดยทั่วไปแล้วหน้าอื่น ๆ ก็ไม่รวมอยู่ด้วย! ตกต่ำ! เปิดบันทึก IIS ของเว็บไซต์และตรวจสอบว่า ฉันดาวน์โหลด Baidu Spider แล้วตกใจมาก! ฉันค้นพบครั้งสำคัญ: Baidu Spider เป็นคนโง่จริงๆ!
1. ก่อนอื่นเรามาดูกันว่า Baidu Spider นั้นโง่ขนาดไหน ต่อไปนี้เป็นบันทึกกิจกรรมของ Baidu Spider บนเว็บไซต์ของฉัน
1. 2009-06-03 21:26:05 W3SVC962713505 218.60.130.19 GET /robots.txt - 80 - 123.125.64.15 Baiduspider+(+http://www.baidu.com/search/spider.htm) 404 0 64 ( หมายเหตุ: 404 ระบุว่าไม่พบ robots.txt)
2. 2009-06-03 21:26:49 W3SVC962713505 218.60.130.19 GET /index.asp - 80 - 123.125.64.15 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 64 ( หมายเหตุ: 200 ระบุว่าพบไฟล์โฮมเพจ index.asp)
จากนี้จะเห็นได้ว่ากิจกรรมของ Baidu Spider ไปที่เว็บไซต์เพื่อค้นหาไฟล์ robots.txt หากไม่มีอยู่ ให้ค้นหาหน้าแรกของดัชนี asp ของเว็บไซต์ หลังจากเปรียบเทียบกับหน้าแรกที่รวมอยู่ใน Baidu แล้ว พบว่าไม่มีการเปลี่ยนแปลงไปจากเดิมแล้วก็จากไป เช่นเดียวกับเว็บมาสเตอร์ส่วนใหญ่ ใครบ้างที่ไม่ต้องการอัปเดตภาพรวมของหน้าเว็บที่รวมอยู่ใน Baidu เป็นครั้งคราว ดูเหมือนว่าวิธีเดียวที่จะทำให้ robots.txt สมบูรณ์ได้คือการนำสไปเดอร์ของ Baidu มาวิ่งรอบๆ ไซต์ของฉัน
2. เขียน robots.txt และพา Baidu สำรวจเว็บไซต์ของคุณ
robots.txt ไฟล์นี้จะต้องถูกเขียน ทุกท่านรู้วิธีเขียนโดยเฉพาะหรือไม่ ถ้าไม่ผมจะทำซ้ำอีกครั้ง
ตัวอย่างที่ 1 ปิดการใช้งานเครื่องมือค้นหาทั้งหมดไม่ให้เข้าถึงส่วนใดส่วนหนึ่งของเว็บไซต์
ตัวแทนผู้ใช้: *
ไม่อนุญาต: /
ตัวอย่างที่ 2 อนุญาตให้หุ่นยนต์ทั้งหมดเข้าถึง
(หรือคุณสามารถสร้างไฟล์เปล่า "/robots.txt")
ตัวแทนผู้ใช้: *
ไม่อนุญาต:
หรือ
ตัวแทนผู้ใช้: *
อนุญาต: /
(หมายเหตุจากตาราง: สิ่งนี้จำเป็น อย่าสร้างไฟล์เปล่า นั่นคือไป่ตู้สูบบุหรี่ ทางที่ดีควรเขียนประโยคต่อไปนี้)
ตัวอย่างที่ 3 แบนเฉพาะ Baiduspider ไม่ให้เข้าถึงเว็บไซต์ของคุณ
ตัวแทนผู้ใช้: Baiduspider
ไม่อนุญาต: /
ตัวอย่างที่ 4 อนุญาตให้ Baiduspider เข้าถึงเว็บไซต์ของคุณเท่านั้น
ตัวแทนผู้ใช้: Baiduspider
ไม่อนุญาต:
ตัวแทนผู้ใช้: *
ไม่อนุญาต: /
ตัวอย่างที่ 5 ห้ามมิให้สไปเดอร์เข้าถึงไดเร็กทอรีเฉพาะ
ในตัวอย่างนี้ เว็บไซต์มีสามไดเร็กทอรีที่จำกัดการเข้าถึงเครื่องมือค้นหา นั่นคือ หุ่นยนต์จะไม่เข้าถึงไดเร็กทอรีทั้งสามนี้ ควรสังเกตว่าแต่ละไดเร็กทอรีจะต้องประกาศแยกกัน และไม่สามารถเขียนเป็น "Disallow: /cgi-bin/ /tmp/" ได้
ตัวแทนผู้ใช้: *
ไม่อนุญาต: /cgi-bin/
ไม่อนุญาต: /tmp/
ไม่อนุญาต: /~โจ/
ตัวอย่างที่ 6 อนุญาตให้เข้าถึงบาง URL ในไดเร็กทอรีเฉพาะ
ตัวแทนผู้ใช้: *
อนุญาต: /cgi-bin/see
อนุญาต: /tmp/hi
อนุญาต: /~joe/look
ไม่อนุญาต: /cgi-bin/
ไม่อนุญาต: /tmp/
ไม่อนุญาต: /~โจ/
ตัวอย่างที่ 7 ใช้ "*" เพื่อจำกัดการเข้าถึง URL
ห้ามเข้าถึง URL ทั้งหมดที่มีส่วนต่อท้าย ".htm" (รวมถึงไดเรกทอรีย่อย) ในไดเรกทอรี /cgi-bin/
ตัวแทนผู้ใช้: *
ไม่อนุญาต: /cgi-bin/*.htm
ตัวอย่างที่ 8 ใช้ "$" เพื่อจำกัดการเข้าถึง URL
อนุญาตให้เข้าถึงได้เฉพาะ URL ที่มีส่วนต่อท้าย ".htm"
ตัวแทนผู้ใช้: *
อนุญาต: .htm$
ไม่อนุญาต: /
ตัวอย่างที่ 9 ปิดการเข้าถึงหน้าไดนามิกทั้งหมดในเว็บไซต์
ตัวแทนผู้ใช้: *
ไม่อนุญาต: /*?*
ตัวอย่างที่ 10 ห้าม Baiduspider รวบรวมข้อมูลรูปภาพทั้งหมดบนเว็บไซต์
อนุญาตให้รวบรวมข้อมูลเฉพาะหน้าเว็บเท่านั้น ไม่อนุญาตให้รวบรวมข้อมูลรูปภาพ
ตัวแทนผู้ใช้: Baiduspider
ไม่อนุญาต: .jpg$
ไม่อนุญาต: .jpeg$
ไม่อนุญาต: .gif$
ไม่อนุญาต: .png$
ไม่อนุญาต: .bmp$
ตัวอย่างที่ 11 อนุญาตให้ Baiduspider รวบรวมข้อมูลหน้าเว็บและรูปภาพในรูปแบบ .gif เท่านั้น
อนุญาตให้จับภาพหน้าเว็บและรูปภาพในรูปแบบ GIF แต่ไม่อนุญาตให้จับภาพในรูปแบบอื่น
ตัวแทนผู้ใช้: Baiduspider
อนุญาต: .gif$
ไม่อนุญาต: .jpg$
ไม่อนุญาต: .jpeg$
ไม่อนุญาต: .png$
ไม่อนุญาต: .bmp$
ตัวอย่างที่ 12 ห้ามเฉพาะ Baiduspider ไม่ให้จับภาพในรูปแบบ .jpg
ตัวแทนผู้ใช้: Baiduspider
ไม่อนุญาต: .jpg$
ลองดู robots.txt ที่เขียนโดยตารางเองเพื่อเป็นข้อมูลอ้างอิง
คัดลอกรหัส
ตัวแทนผู้ใช้: *
ไม่อนุญาต: /admin/
ไม่อนุญาต: /อ่อน/
อนุญาต: /images/
อนุญาต: /html/
อนุญาต: .htm$
อนุญาต: .php$
อนุญาต: .asp$
อนุญาต: .gif$
อนุญาต: .jpg$
อนุญาต: .jpeg$
อนุญาต: .png$
อนุญาต: .bmp$
อนุญาต: /
อธิบาย:
1. อนุญาตการจัดทำดัชนีโดยเครื่องมือค้นหาต่างๆ
2. ปิดการใช้งานการจัดทำดัชนีของไดเร็กทอรี /admin นี่เป็นสิ่งต้องห้ามของเว็บไซต์
3. ปิดการใช้งานไดเร็กทอรีความปลอดภัยที่สำคัญ เช่น /soft
4. อนุญาตให้เข้าถึงไดเร็กทอรี /images
5. อนุญาตให้เข้าถึงไดเร็กทอรี /html
6. อนุญาตให้เข้าถึงไฟล์ htm, php, asp, html ทั้งหมด
7. อนุญาตให้จับภาพในรูปแบบ gif, jpg, jpeg, png, bmp
8. อนุญาตให้รวบรวมข้อมูลไฟล์ในไดเรกทอรีรากของเว็บไซต์
ตกลง อัปโหลด robots.txt ของคุณไปยังเว็บไซต์และไดเร็กทอรี และรอให้ Baidu Spider กลับมาอีกครั้ง เมื่อถึงเวลา ไกด์ดีๆ คนนี้ก็จะพาคนงี่เง่าคนนั้นไปที่สถานีของคุณและเดินไปรอบๆ ผู้เขียนบทความนี้รวบรวมและเผยแพร่โดยเครือข่ายขายส่งเสื้อผ้าการค้าต่างประเทศของ MOFHOT www.mofhot.com โปรดทิ้งลิงก์ไว้ใน A5 ขอบคุณ ~ การเผยแพร่บทความไม่ใช่เรื่องง่าย