ไฟล์ Robots.txt เป็นข้อความ TXT ธรรมดา แต่ SEOers ที่มุ่งเน้นการสร้างเว็บไซต์และการเพิ่มประสิทธิภาพเว็บไซต์ต่างก็รู้ถึงความสำคัญของไฟล์นี้ แผนที่ยังช่วยนำทางให้แมงมุมอีกด้วย เมื่อสไปเดอร์รวบรวมข้อมูลไปยังไซต์ สิ่งแรกที่เข้าถึงได้คือไฟล์ Robots.txt มีอยู่หรือไม่ จากนั้นจะทำการเข้าถึงดัชนีตามหลักเกณฑ์ในเนื้อหา หากไม่มีไฟล์ดังกล่าว ก็จะเข้าถึงตามลำดับตามลำดับ ลิงค์ในหน้า ดังนั้นเราจึงสามารถใช้เพื่อบล็อกไดเร็กทอรีบางตัวที่เครื่องมือค้นหาไม่จำเป็นต้องจัดทำดัชนี หรืออธิบายแผนผังเว็บไซต์ใน Robots.txt เพื่อแนะนำสไปเดอร์ในการรวบรวมข้อมูล ซึ่งมีประสิทธิภาพมากสำหรับการรักษาความปลอดภัยเว็บไซต์หรือประหยัดแบนด์วิดท์ของเซิร์ฟเวอร์และการจัดทำดัชนีแนะนำ อาจกล่าวได้ว่าบรรลุผลสำเร็จในการส่งเสริมจุดแข็งของตนเองและหลีกเลี่ยงจุดอ่อนของตนเอง เรามาวิเคราะห์กันโดยละเอียดด้านล่าง:
1. ใช้ Robots.txt เพื่อประหยัดแบนด์วิธของเซิร์ฟเวอร์
โดยทั่วไป เว็บมาสเตอร์ไม่ค่อยทำการตั้งค่าดังกล่าว อย่างไรก็ตาม เมื่อเซิร์ฟเวอร์มีการเข้าชมจำนวนมากและมีเนื้อหามากเกินไป ก็จำเป็นต้องทำการตั้งค่าเพื่อบันทึกแบนด์วิธของเซิร์ฟเวอร์ เช่น การบล็อกโฟลเดอร์ เช่น:รูปภาพ ซึ่งก็คือ มีประโยชน์สำหรับการจัดทำดัชนีเครื่องมือค้นหา ไม่มีความสำคัญในทางปฏิบัติและเปลืองแบนด์วิดธ์จำนวนมาก สำหรับเว็บไซต์รูปภาพ ปริมาณการใช้จะยิ่งน่าตกใจมากขึ้น ดังนั้นการใช้ Robots.txt จึงสามารถแก้ไขปัญหานี้ได้อย่างเต็มที่
2. ปกป้องไดเร็กทอรีความปลอดภัยของเว็บไซต์
โดยทั่วไป เมื่อตั้งค่า Robots.txt จะต้องตั้งค่าไดเร็กทอรีการจัดการ ฐานข้อมูล และไดเร็กทอรีสำรองเพื่อป้องกันไม่ให้สไปเดอร์รวบรวมข้อมูล มิฉะนั้น อาจเกิดการรั่วไหลของข้อมูลได้ง่ายและส่งผลต่อความปลอดภัยของเว็บไซต์ แน่นอนว่ายังมีไดเร็กทอรีอื่น ๆ ที่ผู้ดูแลระบบไม่ต้องการให้สไปเดอร์จัดทำดัชนี ซึ่งสามารถตั้งค่าได้เช่นกัน เพื่อให้เสิร์ชเอ็นจิ้นสามารถปฏิบัติตามกฎนี้ในการจัดทำดัชนีอย่างเคร่งครัด
3. ห้ามเครื่องมือค้นหาจากการจัดทำดัชนีหน้า
มีหน้าเว็บบางหน้าในเว็บไซต์ที่เราไม่ต้องการให้บุคคลทั่วไปเห็นอยู่เสมอ ในขณะนี้ เราสามารถใช้ Robots.txt เพื่อตั้งค่าหน้าเหล่านั้นเพื่อป้องกันไม่ให้สไปเดอร์สร้างดัชนีหน้าเหล่านั้น ตัวอย่างเช่น เมื่อไม่กี่วันก่อน อินเทอร์เน็ตของฉัน ความเร็วช้าและฉันอัปเดตบทความส่งผลให้มีการเผยแพร่อย่างต่อเนื่องและซ้ำ ๆ ฉันค้นหา 3 ครั้งและผลลัพธ์ทั้งหมดถูกจัดทำดัชนีโดยเครื่องมือค้นหา ฉันควรทำอย่างไร? เนื้อหาที่ซ้ำกันไม่ดีสำหรับการเพิ่มประสิทธิภาพเว็บไซต์อย่างแน่นอน ในขณะนี้ คุณสามารถตั้งค่า Robots.txt ให้บล็อกหน้าที่ซ้ำซ้อนได้
4. แผนผังเว็บไซต์ลิงก์ Robots.txt
เนื่องจากสิ่งแรกที่สไปเดอร์ดูเมื่อเยี่ยมชมเว็บไซต์คือไฟล์ Robots.txt เราจึงสามารถตั้งค่าแผนผังเว็บไซต์ในนั้นได้ ซึ่งจะช่วยให้สไปเดอร์จัดทำดัชนีข้อมูลล่าสุดและหลีกเลี่ยงข้อผิดพลาดที่ไม่จำเป็นมากมาย ตัวอย่างเช่น หน้าแผนที่ของบริษัทสร้างเว็บไซต์มืออาชีพ Pilot Technology จะปรากฏขึ้น: http://www.****.net.cn/ sitemap.xml การเพิ่มลงใน Robots.txt จะเอื้อต่อการจัดทำดัชนีของเครื่องมือค้นหามากยิ่งขึ้น . คุณไม่จำเป็นต้องเข้าเสิร์ชเอ็นจิ้นทุกวันเพื่อส่งไฟล์แผนที่ สะดวกมากเหรอ?
5. วิธีการเขียนและข้อควรระวัง
รูปแบบการเขียนของ Robots.txt ต้องมีมาตรฐาน มีคนจำนวนมากที่ไม่ระมัดระวังในการเขียน ก่อนอื่น: ต้องเขียน User-agent:* * หมายถึงสำหรับเครื่องมือค้นหาทั้งหมด ไม่อนุญาต: (ไดเร็กทอรีไฟล์) ไม่มีวงเล็บเหลี่ยม ซึ่งหมายความว่าห้ามสร้างดัชนีเครื่องมือค้นหา ต่อไปนี้เป็นตัวอย่างที่แสดงให้เห็น:
ตัวอย่างที่ 1:
ตัวแทนผู้ใช้:*
ไม่อนุญาต:/
บ่งชี้ว่าห้ามการเข้าถึงดัชนีเครื่องมือค้นหาใด ๆ
ตัวอย่างที่ 2:
ตัวแทนผู้ใช้:*
Disallow:/seebk
บ่งชี้ว่าดัชนีเครื่องมือค้นหาไม่ได้รับอนุญาตให้เข้าถึงไดเร็กทอรี seebk
ตัวอย่างที่ 3:
ตัวแทนผู้ใช้:baiduspider
ตัวแทนผู้ใช้:*
ไม่อนุญาต:/
ระบุว่าอนุญาตให้เข้าถึงดัชนีแบบสแต็กของ Baidu Spider เท่านั้น: Baidu: baiduspider, Google: googlebot, Soso: sosospider, Alexa: ia_archiver, Yahoo: Yahoo Slurp
ตัวอย่างที่ 4:
ตัวแทนผู้ใช้:*
ไม่อนุญาต:.jpg$
เพื่อป้องกันฮอตลิงก์รูปภาพ jpg คุณไม่จำเป็นต้องตั้งค่าหากแบนด์วิธของคุณเพียงพอ
Postscript: เพิ่มประสิทธิภาพ Robots.txt เพื่อเพิ่มจุดแข็งของคุณและหลีกเลี่ยงจุดอ่อนของคุณ การทำงานที่ดีใน Robots.txt จะทำให้เว็บไซต์เพิ่มประสิทธิภาพและพัฒนาได้ง่ายขึ้น บทความนี้เขียนโดย www.joyweb.net.cn !
ผู้เขียนพื้นที่ส่วนตัวของเครือข่ายไบนารี