ชิโถว เฉิง: หุ่นยนต์วิเศษเป็นพยานถึงความรุ่งเรืองและล่มสลายของเว็บไซต์

ผู้เขียน：Eve Cole เวลาอัปเดต：2011-08-02 17:09:44

ฉันสัญญาว่าจะเขียนบทความให้ Ah Bin เมื่อนานมาแล้ว ฉันรู้สึกขอบคุณสำหรับความช่วยเหลือของเขา แต่ฉันยังไม่ได้เขียนจนกระทั่งตอนนี้ ฉันเห็น Zhuo Shao ถามคำถามเกี่ยวกับหุ่นยนต์ และฉันก็รวบรวม สำหรับทุกคน มาพูดถึงสถานการณ์บางอย่างของหุ่นยนต์กันดีกว่า ไฟล์ robots.txt อยู่ในไดเร็กทอรีรากของเว็บไซต์ และเป็นไฟล์แรกที่เครื่องมือค้นหาดูเมื่อเข้าถึงเว็บไซต์ เมื่อสไปเดอร์ค้นหาเยี่ยมชมเว็บไซต์ ก่อนอื่นจะตรวจสอบว่า robots.txt มีอยู่ในไดเรกทอรีรากของเว็บไซต์หรือไม่ หากมี โรบ็อตการค้นหาจะกำหนดขอบเขตการเข้าถึงตามเนื้อหาของไฟล์ ไม่มีอยู่ทั้งหมด สไปเดอร์ค้นหาจะสามารถเข้าถึงทุกหน้าบนเว็บไซต์ที่ไม่มีการป้องกันด้วยรหัสผ่าน ทุกเว็บไซต์ควรมีโรบอต ซึ่งบอกเครื่องมือค้นหาว่าสิ่งใดบนเว็บไซต์ของฉันไม่ได้รับอนุญาตให้รวบรวมข้อมูล และหน้าใดบ้างที่ยินดีให้รวบรวมข้อมูลและรวบรวมข้อมูล

ฟังก์ชั่นต่างๆ ของหุ่นยนต์:

1. บล็อกเครื่องมือค้นหาทั้งหมดจากการรวบรวมข้อมูล หากเว็บไซต์ของคุณเป็นเพียงเว็บไซต์ส่วนตัวของคุณและคุณไม่ต้องการให้คนอื่นรู้เกี่ยวกับมันมากเกินไป คุณสามารถใช้โรบ็อตเพื่อบล็อกเครื่องมือค้นหาทั้งหมด เช่น บล็อกส่วนตัวที่คุณเขียน คุณสามารถบล็อกเครื่องมือค้นหาทั้งหมดได้

ตัวแทนผู้ใช้: *

ไม่อนุญาต: /

2. หากคุณต้องการให้เครื่องมือค้นหาเฉพาะรวบรวมข้อมูลของคุณ คุณสามารถใช้โรบ็อตเพื่อตั้งค่าได้ในขณะนี้ ตัวอย่างเช่น ฉันต้องการให้เว็บไซต์ของฉันรวมอยู่ใน Baidu เท่านั้น แต่ไม่รวมเครื่องมือค้นหาอื่น ๆ คุณสามารถใช้หุ่นยนต์เพื่อตั้งค่าได้

ตัวแทนผู้ใช้: Baiduspider

อนุญาต:

ตัวแทนผู้ใช้: *

ไม่อนุญาต: /

3. คุณสามารถใช้ไวด์การ์ดต่างๆ เพื่อกำหนดค่าเว็บไซต์ให้สอดคล้องกันได้ ตัวอย่างเช่น หากฉันไม่ต้องการให้เว็บไซต์รวบรวมข้อมูลรูปภาพทั้งหมดของฉัน ฉันสามารถใช้ $ เพื่อตั้งค่าได้ โดยทั่วไป รูปแบบภาพทั่วไปของเราคือ BMP, JPG, GIF, JPEG และรูปแบบอื่นๆ การตั้งค่าในเวลานี้คือ:

ตัวแทนผู้ใช้: *

ไม่อนุญาต: /.bmp$

ไม่อนุญาต: /.jpg$

ไม่อนุญาต: /.gif$

ไม่อนุญาต: /.jpeg$

4. คุณยังสามารถใช้ * เพื่อบล็อก URL ที่เกี่ยวข้องได้ เมื่อบางเว็บไซต์ไม่อนุญาตให้เครื่องมือค้นหารวบรวมข้อมูลที่อยู่แบบไดนามิก คุณสามารถใช้ * wildcard นี้เพื่อตั้งค่าการจับคู่ ภายใต้สถานการณ์ปกติ ลักษณะหนึ่งของ URL แบบไดนามิกคือมี "?" ในขณะนี้ เราสามารถใช้คุณลักษณะนี้เพื่อดำเนินการบล็อกการจับคู่:

ตัวแทนผู้ใช้: *

ไม่อนุญาต: /*?*

5. หากเว็บไซต์ได้รับการแก้ไขและโฟลเดอร์ทั้งหมดหายไป ในกรณีนี้ คุณควรพิจารณาบล็อกทั้งโฟลเดอร์ เราสามารถใช้โรบ็อตเพื่อบล็อกทั้งโฟลเดอร์ได้ ตัวอย่างเช่น โฟลเดอร์ ab ในเว็บไซต์ถูกลบเนื่องจากการแก้ไข ในกรณีนี้ สามารถตั้งค่าได้ดังนี้:

ตัวแทนผู้ใช้: *

ไม่อนุญาต: /ab/

6. หากมีโฟลเดอร์ในเว็บไซต์ที่คุณไม่ต้องการรวม แต่มีข้อมูลในโฟลเดอร์นี้ที่อนุญาตให้รวมได้ จากนั้นคุณสามารถใช้การอนุญาตของหุ่นยนต์เพื่อตั้งค่าได้ ตัวอย่างเช่น เครื่องมือค้นหาไม่อนุญาตให้รวบรวมข้อมูลโฟลเดอร์ ab ในเว็บไซต์ของฉัน แต่มีซีดีข้อมูลในโฟลเดอร์ ab ที่อนุญาตให้รวบรวมข้อมูลได้ ในขณะนี้ คุณสามารถใช้โรบ็อตเพื่อตั้งค่าได้:

ตัวแทนผู้ใช้: *

ไม่อนุญาต: /ab/

อนุญาต:/ab/cd

7. ตำแหน่งของแผนผังเว็บไซต์สามารถกำหนดได้ในโรบ็อต ซึ่งเป็นประโยชน์ต่อการรวมเว็บไซต์

แผนผังเว็บไซต์:<ตำแหน่งแผนผังเว็บไซต์>

8. บางครั้งคุณจะพบว่ามีการตั้งค่าโรบ็อตในเว็บไซต์ของฉัน แต่คุณยังพบว่ามีที่อยู่ URL นี้ด้วย สาเหตุเป็นเพราะสไปเดอร์ของเครื่องมือค้นหานี้รวบรวมข้อมูลไปยังหน้าเว็บผ่าน URL URL แบบนี้ ไม่มีชื่อและคำอธิบาย แต่เมื่อ Baidu รวบรวมข้อมูล URL นี้ มันจะนำชื่อและคำอธิบายมา ผู้คนจำนวนมากจะบอกว่าฉันตั้งค่าโรบ็อต แต่ไม่มีผลอะไร สถานการณ์จริงคือมีการรวบรวมข้อมูลลิงก์แต่ไม่รวมเนื้อหาของหน้า

หน้าแรกของเว็บไซต์มีน้ำหนักสูงสุด และน้ำหนักจะถูกถ่ายโอนโดยลิงก์ เราตั้งค่าโรบ็อตเพื่อถ่ายโอนน้ำหนักไปยังหน้าที่จำเป็นต้องมีน้ำหนักสูงได้ดีขึ้น และบางหน้าไม่จำเป็นต้องมีการรวบรวมข้อมูลและรวบรวมข้อมูลโดยการค้นหา เครื่องยนต์ของ

บรรณาธิการที่รับผิดชอบ: Chen Long Author︶ พื้นที่ส่วนตัวของ Shitou Peng