Baidu Spider เป็นคนโง่ ดูสิว่าฉันจับแมงมุมทั้งเป็นได้อย่างไร

ผู้เขียน：Eve Cole เวลาอัปเดต：2009-06-08 18:40:44

การค้นพบล่าสุดคือ Baidu Spider เป็นคนโง่! เมื่อเร็ว ๆ นี้ฉันพบว่าการรวมเว็บไซต์ของ Baidu นั้นช้ามาก โดยพื้นฐานแล้วฉันถ่ายภาพหน้าแรกใหม่หลังจากผ่านไปสองสามวันและโดยทั่วไปแล้วหน้าอื่น ๆ ก็ไม่รวมอยู่ด้วย! ตกต่ำ! เปิดบันทึก IIS ของเว็บไซต์และตรวจสอบว่า ฉันดาวน์โหลด Baidu Spider แล้วตกใจมาก! ฉันค้นพบครั้งสำคัญ: Baidu Spider เป็นคนโง่จริงๆ!

1. ก่อนอื่นเรามาดูกันว่า Baidu Spider นั้นโง่ขนาดไหน ต่อไปนี้เป็นบันทึกกิจกรรมของ Baidu Spider บนเว็บไซต์ของฉัน

1. 2009-06-03 21:26:05 W3SVC962713505 218.60.130.19 GET /robots.txt - 80 - 123.125.64.15 Baiduspider+(+http://www.baidu.com/search/spider.htm) 404 0 64 ( หมายเหตุ: 404 ระบุว่าไม่พบ robots.txt)

2. 2009-06-03 21:26:49 W3SVC962713505 218.60.130.19 GET /index.asp - 80 - 123.125.64.15 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 64 ( หมายเหตุ: 200 ระบุว่าพบไฟล์โฮมเพจ index.asp)

จากนี้จะเห็นได้ว่ากิจกรรมของ Baidu Spider ไปที่เว็บไซต์เพื่อค้นหาไฟล์ robots.txt หากไม่มีอยู่ ให้ค้นหาหน้าแรกของดัชนี asp ของเว็บไซต์ หลังจากเปรียบเทียบกับหน้าแรกที่รวมอยู่ใน Baidu แล้ว พบว่าไม่มีการเปลี่ยนแปลงไปจากเดิมแล้วก็จากไป เช่นเดียวกับเว็บมาสเตอร์ส่วนใหญ่ ใครบ้างที่ไม่ต้องการอัปเดตภาพรวมของหน้าเว็บที่รวมอยู่ใน Baidu เป็นครั้งคราว ดูเหมือนว่าวิธีเดียวที่จะทำให้ robots.txt สมบูรณ์ได้คือการนำสไปเดอร์ของ Baidu มาวิ่งรอบๆ ไซต์ของฉัน

2. เขียน robots.txt และพา Baidu สำรวจเว็บไซต์ของคุณ

robots.txt ไฟล์นี้จะต้องถูกเขียน ทุกท่านรู้วิธีเขียนโดยเฉพาะหรือไม่ ถ้าไม่ผมจะทำซ้ำอีกครั้ง

ตัวอย่างที่ 1 ปิดการใช้งานเครื่องมือค้นหาทั้งหมดไม่ให้เข้าถึงส่วนใดส่วนหนึ่งของเว็บไซต์

ตัวแทนผู้ใช้: *

ไม่อนุญาต: /

ตัวอย่างที่ 2 อนุญาตให้หุ่นยนต์ทั้งหมดเข้าถึง

(หรือคุณสามารถสร้างไฟล์เปล่า "/robots.txt")

ตัวแทนผู้ใช้: *

ไม่อนุญาต:

หรือ

ตัวแทนผู้ใช้: *

อนุญาต: /

(หมายเหตุจากตาราง: สิ่งนี้จำเป็น อย่าสร้างไฟล์เปล่า นั่นคือไป่ตู้สูบบุหรี่ ทางที่ดีควรเขียนประโยคต่อไปนี้)

ตัวอย่างที่ 3 แบนเฉพาะ Baiduspider ไม่ให้เข้าถึงเว็บไซต์ของคุณ

ตัวแทนผู้ใช้: Baiduspider

ไม่อนุญาต: /

ตัวอย่างที่ 4 อนุญาตให้ Baiduspider เข้าถึงเว็บไซต์ของคุณเท่านั้น

ตัวแทนผู้ใช้: Baiduspider

ไม่อนุญาต:

ตัวแทนผู้ใช้: *

ไม่อนุญาต: /

ตัวอย่างที่ 5 ห้ามมิให้สไปเดอร์เข้าถึงไดเร็กทอรีเฉพาะ

ในตัวอย่างนี้ เว็บไซต์มีสามไดเร็กทอรีที่จำกัดการเข้าถึงเครื่องมือค้นหา นั่นคือ หุ่นยนต์จะไม่เข้าถึงไดเร็กทอรีทั้งสามนี้ ควรสังเกตว่าแต่ละไดเร็กทอรีจะต้องประกาศแยกกัน และไม่สามารถเขียนเป็น "Disallow: /cgi-bin/ /tmp/" ได้

ตัวแทนผู้ใช้: *

ไม่อนุญาต: /cgi-bin/

ไม่อนุญาต: /tmp/

ไม่อนุญาต: /~โจ/

ตัวอย่างที่ 6 อนุญาตให้เข้าถึงบาง URL ในไดเร็กทอรีเฉพาะ

ตัวแทนผู้ใช้: *

อนุญาต: /cgi-bin/see

อนุญาต: /tmp/hi

อนุญาต: /~joe/look

ไม่อนุญาต: /cgi-bin/

ไม่อนุญาต: /tmp/

ไม่อนุญาต: /~โจ/

ตัวอย่างที่ 7 ใช้ "*" เพื่อจำกัดการเข้าถึง URL

ห้ามเข้าถึง URL ทั้งหมดที่มีส่วนต่อท้าย ".htm" (รวมถึงไดเรกทอรีย่อย) ในไดเรกทอรี /cgi-bin/

ตัวแทนผู้ใช้: *

ไม่อนุญาต: /cgi-bin/*.htm

ตัวอย่างที่ 8 ใช้ "$" เพื่อจำกัดการเข้าถึง URL

อนุญาตให้เข้าถึงได้เฉพาะ URL ที่มีส่วนต่อท้าย ".htm"

ตัวแทนผู้ใช้: *

อนุญาต: .htm$

ไม่อนุญาต: /

ตัวอย่างที่ 9 ปิดการเข้าถึงหน้าไดนามิกทั้งหมดในเว็บไซต์

ตัวแทนผู้ใช้: *

ไม่อนุญาต: /*?*

ตัวอย่างที่ 10 ห้าม Baiduspider รวบรวมข้อมูลรูปภาพทั้งหมดบนเว็บไซต์

อนุญาตให้รวบรวมข้อมูลเฉพาะหน้าเว็บเท่านั้น ไม่อนุญาตให้รวบรวมข้อมูลรูปภาพ

ตัวแทนผู้ใช้: Baiduspider

ไม่อนุญาต: .jpg$

ไม่อนุญาต: .jpeg$

ไม่อนุญาต: .gif$

ไม่อนุญาต: .png$

ไม่อนุญาต: .bmp$

ตัวอย่างที่ 11 อนุญาตให้ Baiduspider รวบรวมข้อมูลหน้าเว็บและรูปภาพในรูปแบบ .gif เท่านั้น

อนุญาตให้จับภาพหน้าเว็บและรูปภาพในรูปแบบ GIF แต่ไม่อนุญาตให้จับภาพในรูปแบบอื่น

ตัวแทนผู้ใช้: Baiduspider

อนุญาต: .gif$

ไม่อนุญาต: .jpg$

ไม่อนุญาต: .jpeg$

ไม่อนุญาต: .png$

ไม่อนุญาต: .bmp$

ตัวอย่างที่ 12 ห้ามเฉพาะ Baiduspider ไม่ให้จับภาพในรูปแบบ .jpg

ตัวแทนผู้ใช้: Baiduspider

ไม่อนุญาต: .jpg$

ลองดู robots.txt ที่เขียนโดยตารางเองเพื่อเป็นข้อมูลอ้างอิง

คัดลอกรหัส

ตัวแทนผู้ใช้: *

ไม่อนุญาต: /admin/

ไม่อนุญาต: /อ่อน/

อนุญาต: /images/

อนุญาต: /html/

อนุญาต: .htm$

อนุญาต: .php$

อนุญาต: .asp$

อนุญาต: .gif$

อนุญาต: .jpg$

อนุญาต: .jpeg$

อนุญาต: .png$

อนุญาต: .bmp$

อนุญาต: /

อธิบาย:

1. อนุญาตการจัดทำดัชนีโดยเครื่องมือค้นหาต่างๆ

2. ปิดการใช้งานการจัดทำดัชนีของไดเร็กทอรี /admin นี่เป็นสิ่งต้องห้ามของเว็บไซต์

3. ปิดการใช้งานไดเร็กทอรีความปลอดภัยที่สำคัญ เช่น /soft

4. อนุญาตให้เข้าถึงไดเร็กทอรี /images

5. อนุญาตให้เข้าถึงไดเร็กทอรี /html

6. อนุญาตให้เข้าถึงไฟล์ htm, php, asp, html ทั้งหมด

7. อนุญาตให้จับภาพในรูปแบบ gif, jpg, jpeg, png, bmp

8. อนุญาตให้รวบรวมข้อมูลไฟล์ในไดเรกทอรีรากของเว็บไซต์

ตกลง อัปโหลด robots.txt ของคุณไปยังเว็บไซต์และไดเร็กทอรี และรอให้ Baidu Spider กลับมาอีกครั้ง เมื่อถึงเวลา ไกด์ดีๆ คนนี้ก็จะพาคนงี่เง่าคนนั้นไปที่สถานีของคุณและเดินไปรอบๆ ผู้เขียนบทความนี้รวบรวมและเผยแพร่โดยเครือข่ายขายส่งเสื้อผ้าการค้าต่างประเทศของ MOFHOT www.mofhot.com โปรดทิ้งลิงก์ไว้ใน A5 ขอบคุณ ~ การเผยแพร่บทความไม่ใช่เรื่องง่าย