ฉันสัญญาว่าจะเขียนบทความให้ Ah Bin เมื่อนานมาแล้ว ฉันรู้สึกขอบคุณสำหรับความช่วยเหลือของเขา แต่ฉันยังไม่ได้เขียนจนกระทั่งตอนนี้ ฉันเห็น Zhuo Shao ถามคำถามเกี่ยวกับหุ่นยนต์ และฉันก็รวบรวม สำหรับทุกคน มาพูดถึงสถานการณ์บางอย่างของหุ่นยนต์กันดีกว่า ไฟล์ robots.txt อยู่ในไดเร็กทอรีรากของเว็บไซต์ และเป็นไฟล์แรกที่เครื่องมือค้นหาดูเมื่อเข้าถึงเว็บไซต์ เมื่อสไปเดอร์ค้นหาเยี่ยมชมเว็บไซต์ ก่อนอื่นจะตรวจสอบว่า robots.txt มีอยู่ในไดเรกทอรีรากของเว็บไซต์หรือไม่ หากมี โรบ็อตการค้นหาจะกำหนดขอบเขตการเข้าถึงตามเนื้อหาของไฟล์ ไม่มีอยู่ทั้งหมด สไปเดอร์ค้นหาจะสามารถเข้าถึงทุกหน้าบนเว็บไซต์ที่ไม่มีการป้องกันด้วยรหัสผ่าน ทุกเว็บไซต์ควรมีโรบอต ซึ่งบอกเครื่องมือค้นหาว่าสิ่งใดบนเว็บไซต์ของฉันไม่ได้รับอนุญาตให้รวบรวมข้อมูล และหน้าใดบ้างที่ยินดีให้รวบรวมข้อมูลและรวบรวมข้อมูล
ฟังก์ชั่นต่างๆ ของหุ่นยนต์:
1. บล็อกเครื่องมือค้นหาทั้งหมดจากการรวบรวมข้อมูล หากเว็บไซต์ของคุณเป็นเพียงเว็บไซต์ส่วนตัวของคุณและคุณไม่ต้องการให้คนอื่นรู้เกี่ยวกับมันมากเกินไป คุณสามารถใช้โรบ็อตเพื่อบล็อกเครื่องมือค้นหาทั้งหมด เช่น บล็อกส่วนตัวที่คุณเขียน คุณสามารถบล็อกเครื่องมือค้นหาทั้งหมดได้
ตัวแทนผู้ใช้: *
ไม่อนุญาต: /
2. หากคุณต้องการให้เครื่องมือค้นหาเฉพาะรวบรวมข้อมูลของคุณ คุณสามารถใช้โรบ็อตเพื่อตั้งค่าได้ในขณะนี้ ตัวอย่างเช่น ฉันต้องการให้เว็บไซต์ของฉันรวมอยู่ใน Baidu เท่านั้น แต่ไม่รวมเครื่องมือค้นหาอื่น ๆ คุณสามารถใช้หุ่นยนต์เพื่อตั้งค่าได้
ตัวแทนผู้ใช้: Baiduspider
อนุญาต:
ตัวแทนผู้ใช้: *
ไม่อนุญาต: /
3. คุณสามารถใช้ไวด์การ์ดต่างๆ เพื่อกำหนดค่าเว็บไซต์ให้สอดคล้องกันได้ ตัวอย่างเช่น หากฉันไม่ต้องการให้เว็บไซต์รวบรวมข้อมูลรูปภาพทั้งหมดของฉัน ฉันสามารถใช้ $ เพื่อตั้งค่าได้ โดยทั่วไป รูปแบบภาพทั่วไปของเราคือ BMP, JPG, GIF, JPEG และรูปแบบอื่นๆ การตั้งค่าในเวลานี้คือ:
ตัวแทนผู้ใช้: *
ไม่อนุญาต: /.bmp$
ไม่อนุญาต: /.jpg$
ไม่อนุญาต: /.gif$
ไม่อนุญาต: /.jpeg$
4. คุณยังสามารถใช้ * เพื่อบล็อก URL ที่เกี่ยวข้องได้ เมื่อบางเว็บไซต์ไม่อนุญาตให้เครื่องมือค้นหารวบรวมข้อมูลที่อยู่แบบไดนามิก คุณสามารถใช้ * wildcard นี้เพื่อตั้งค่าการจับคู่ ภายใต้สถานการณ์ปกติ ลักษณะหนึ่งของ URL แบบไดนามิกคือมี "?" ในขณะนี้ เราสามารถใช้คุณลักษณะนี้เพื่อดำเนินการบล็อกการจับคู่:
ตัวแทนผู้ใช้: *
ไม่อนุญาต: /*?*
5. หากเว็บไซต์ได้รับการแก้ไขและโฟลเดอร์ทั้งหมดหายไป ในกรณีนี้ คุณควรพิจารณาบล็อกทั้งโฟลเดอร์ เราสามารถใช้โรบ็อตเพื่อบล็อกทั้งโฟลเดอร์ได้ ตัวอย่างเช่น โฟลเดอร์ ab ในเว็บไซต์ถูกลบเนื่องจากการแก้ไข ในกรณีนี้ สามารถตั้งค่าได้ดังนี้:
ตัวแทนผู้ใช้: *
ไม่อนุญาต: /ab/
6. หากมีโฟลเดอร์ในเว็บไซต์ที่คุณไม่ต้องการรวม แต่มีข้อมูลในโฟลเดอร์นี้ที่อนุญาตให้รวมได้ จากนั้นคุณสามารถใช้การอนุญาตของหุ่นยนต์เพื่อตั้งค่าได้ ตัวอย่างเช่น เครื่องมือค้นหาไม่อนุญาตให้รวบรวมข้อมูลโฟลเดอร์ ab ในเว็บไซต์ของฉัน แต่มีซีดีข้อมูลในโฟลเดอร์ ab ที่อนุญาตให้รวบรวมข้อมูลได้ ในขณะนี้ คุณสามารถใช้โรบ็อตเพื่อตั้งค่าได้:
ตัวแทนผู้ใช้: *
ไม่อนุญาต: /ab/
อนุญาต:/ab/cd
7. ตำแหน่งของแผนผังเว็บไซต์สามารถกำหนดได้ในโรบ็อต ซึ่งเป็นประโยชน์ต่อการรวมเว็บไซต์
แผนผังเว็บไซต์:<ตำแหน่งแผนผังเว็บไซต์>
8. บางครั้งคุณจะพบว่ามีการตั้งค่าโรบ็อตในเว็บไซต์ของฉัน แต่คุณยังพบว่ามีที่อยู่ URL นี้ด้วย สาเหตุเป็นเพราะสไปเดอร์ของเครื่องมือค้นหานี้รวบรวมข้อมูลไปยังหน้าเว็บผ่าน URL URL แบบนี้ ไม่มีชื่อและคำอธิบาย แต่เมื่อ Baidu รวบรวมข้อมูล URL นี้ มันจะนำชื่อและคำอธิบายมา ผู้คนจำนวนมากจะบอกว่าฉันตั้งค่าโรบ็อต แต่ไม่มีผลอะไร สถานการณ์จริงคือมีการรวบรวมข้อมูลลิงก์แต่ไม่รวมเนื้อหาของหน้า
หน้าแรกของเว็บไซต์มีน้ำหนักสูงสุด และน้ำหนักจะถูกถ่ายโอนโดยลิงก์ เราตั้งค่าโรบ็อตเพื่อถ่ายโอนน้ำหนักไปยังหน้าที่จำเป็นต้องมีน้ำหนักสูงได้ดีขึ้น และบางหน้าไม่จำเป็นต้องมีการรวบรวมข้อมูลและรวบรวมข้อมูลโดยการค้นหา เครื่องยนต์ของ
บรรณาธิการที่รับผิดชอบ: Chen Long Author︶ พื้นที่ส่วนตัวของ Shitou Peng