ระวังอย่าให้ robots.txt บล็อกการรวบรวมข้อมูลของลิงก์

ผู้เขียน：Eve Cole เวลาอัปเดต：2009-06-05 22:45:04

เรารู้ว่าเว็บมาสเตอร์จำนวนมากกำลังมองหาวิธีป้องกันไม่ให้สไปเดอร์รวบรวมข้อมูลหน้าเว็บของตนบนเว็บไซต์ของตน และพวกเขาก็ทำเช่นนี้ได้โดยใช้ไฟล์ robot.txt แม้ว่านี่จะเป็นแนวทางปฏิบัติที่ดี แต่ปัญหาก็เกิดขึ้นเช่นกัน: ความสับสนเมื่อใช้ robot.txt เพื่อป้องกันไม่ให้ Google/Yahoo!/MSN หรือสไปเดอร์ของเครื่องมือค้นหาอื่นๆ รวบรวมข้อมูล ต่อไปนี้เป็นคำอธิบายโดยย่อ:

ป้องกันการรวบรวมข้อมูลผ่าน Robots.txt: ที่อยู่ URL บางส่วนไม่ต้องการเข้าถึง แต่ยังสามารถรวบรวมข้อมูลและปรากฏในหน้าผลลัพธ์ของเครื่องมือค้นหาได้

ถูกบล็อกโดย NoIndex ของแท็ก META: สามารถเข้าถึงได้ แต่ไม่ต้องการรวบรวมข้อมูล และไม่ต้องการแสดงในผลการค้นหา

บล็อกโดยการปิดใช้งานการรวบรวมข้อมูลลิงก์บนหน้าเว็บ: นี่ไม่ใช่การดำเนินการที่ฉลาดนัก เนื่องจากมีลิงก์อื่นๆ ที่ยังต้องการรวบรวมข้อมูลหน้าเว็บเพื่อสร้างดัชนี (หากคุณไม่สนใจ การดำเนินการนี้จะสิ้นเปลืองสไปเดอร์ในหน้าเว็บของคุณ คุณสามารถทำได้หากต้องการเพิ่มเวลาในการค้นหา แต่อย่าคิดว่าการทำเช่นนี้จะทำให้ไม่ปรากฏบนหน้าผลลัพธ์ของเครื่องมือค้นหา)

นี่คือตัวอย่างง่ายๆ แม้ว่าการรวบรวมข้อมูลแบบสไปเดอร์จะถูกจำกัดใน robot.txt แต่จะยังคงปรากฏในผลการค้นหาของ Google

(ไฟล์ robot.txt ใช้ได้กับโดเมนย่อยด้วย)

เราจะเห็นว่าไฟล์ /library/nosearch/ ของ about.com ถูกบล็อก รูปต่อไปนี้แสดงผลลัพธ์เมื่อเราค้นหาที่อยู่ URL ในไฟล์นี้ใน Google:

โปรดสังเกตว่า Google ยังคงมีผลการค้นหา 2,760 รายการที่เรียกว่าหมวดหมู่ที่จัดระเบียบ พวกเขาไม่ได้รวบรวมข้อมูลหน้าเว็บเหล่านี้ ดังนั้นสิ่งที่พวกเขาเห็นก็คือที่อยู่ลิงก์ธรรมดา ไม่มีคำอธิบาย และไม่มีชื่อเรื่อง เนื่องจาก Google ไม่สามารถดูเนื้อหาของหน้าเว็บเหล่านี้ได้

ให้เราจินตนาการต่อไปว่า หากคุณมีหน้าเว็บจำนวนมากที่คุณไม่ต้องการให้เครื่องมือค้นหารวบรวมข้อมูล ที่อยู่ URL เหล่านี้จะยังคงถูกนับและสะสมการเข้าชมและปัจจัยการจัดอันดับอิสระอื่นๆ ที่ไม่รู้จัก แต่ไม่สามารถปฏิบัติตาม ลิงก์ ดังนั้นจึงไม่สามารถมองเห็นลิงก์ที่หลั่งไหลออกมาได้ ดูภาพด้านล่าง:

ต่อไปนี้เป็นสองวิธีที่สะดวก:

1. บันทึกการรับส่งข้อมูลลิงก์เหล่านี้โดยใช้คำสั่ง nofollow เมื่อลิงก์ไปยังไดเรกทอรีต้องห้ามใน robot.txt

2. หากคุณทราบโฟลว์ลิงก์คงที่ของเพจที่ถูกแบนเหล่านี้ (โดยเฉพาะลิงก์ที่มาจากลิงก์ภายนอก) คุณสามารถพิจารณาใช้ noindex ของเมตาและติดตามแทน เพื่อให้สไปเดอร์จะข้ามโฟลว์ลิงก์เหล่านี้เพื่อประหยัดเงิน เวลาในการดึงเพจเข้ามามากขึ้น เว็บไซต์ของคุณที่ต้องการมัน!

บทความนี้มาจากเทคโนโลยี SEO ส่วนตัวของ reamo บล็อกโปรโมตออนไลน์: http://www.aisxin.cn โปรดระบุแหล่งที่มาเมื่อพิมพ์ซ้ำ