ฉันเคยเน้นย้ำถึงการเพิ่มประสิทธิภาพรายละเอียดมาโดยตลอด ใช่แล้ว ข้อกำหนดปัจจุบันของ Baidu สำหรับเว็บไซต์คือการดูว่ารายละเอียดของคุณทำได้ดีหรือไม่ รหัส แท็ก ฯลฯ เป็นเพียงรายละเอียด ดังนั้น Robots จึงเป็นส่วนหนึ่งของรายละเอียดของเว็บไซต์ด้วย ดีสำหรับเรา เว็บไซต์นี้มีประโยชน์มาก อาจมี Webmaster ใหม่ๆ มากมายที่ไม่รู้ว่า Robots คืออะไร ผมจะเล่าให้คุณฟังบางส่วนเกี่ยวกับการทำงานของ Robots
1. ที่มาของ Robots.txt
เราต้องเข้าใจก่อนว่า Robots ไม่ใช่คำสั่งหรือคำสั่ง Robots เป็นข้อตกลงบุคคลที่สามระหว่างเว็บไซต์และเครื่องมือค้นหา การคุ้มครองความเป็นส่วนตัวบนเว็บไซต์มีอยู่ในไฟล์ A txt ของเราในไดเรกทอรีรากของเว็บไซต์
2. บทบาทของ Robots.txt
เมื่อเราเปิดตัวเว็บไซต์ของเรา จะมีปัจจัยที่ไม่อาจต้านทานได้หลายอย่างที่ปล่อยออกมาจากเครื่องมือค้นหา ซึ่งจะทำให้คุณภาพของหน้าเว็บโดยรวมลดลงและการแสดงผลเว็บไซต์ของเราในเครื่องมือค้นหาไม่ดี บทบาทของโรบ็อตคือการบล็อกสิ่งเหล่านี้ ปัจจัยที่ไม่อาจต้านทานได้ ปัจจัยที่ทำให้สไปเดอร์ไม่สามารถปล่อยมันออกมาได้ แล้วเราควรบล็อกหน้าไหน?
1. บล็อกบางหน้าที่ไม่มีเนื้อหา ฉันจะยกตัวอย่างให้ชัดเจน เช่น หน้าลงทะเบียน หน้าเข้าสู่ระบบ หน้าช็อปปิ้ง หน้าโพสต์ หน้าข้อความ หน้าแรกค้นหา หากคุณมีหน้าข้อผิดพลาด 404 ควรปิดกั้นมันด้วย
2. บล็อกหน้าที่ซ้ำกัน: หากเราพบว่าเว็บไซต์ของเรามีสองหน้าที่มีเนื้อหาเหมือนกันแต่มีเส้นทางต่างกัน เราต้องใช้ Robots เพื่อบล็อกหน้านั้น สไปเดอร์จะยังคงรวบรวมข้อมูลแต่จะไม่ปล่อยมัน เราสามารถใช้ Google Webmaster ได้ เครื่องมือในการบล็อกเพจ ตรวจสอบจำนวนเพจที่ถูกบล็อกโดยตรง
3. บล็อกหน้าลิงก์เสียบางหน้า
เราจำเป็นต้องบล็อกเพจเหล่านั้นที่มีลักษณะทั่วไปเท่านั้น การที่สไปเดอร์ไม่สามารถรวบรวมข้อมูลได้นั้นไม่ได้หมายความว่าสไปเดอร์ไม่สามารถรวบรวมข้อมูลที่อยู่ได้ แน่นอนว่าเราทำได้ จัดการมันซะ เราไม่จำเป็นต้องบล็อกลิงก์เสีย เช่น เราจำเป็นต้องบล็อกลิงก์เสียที่เกิดจากเส้นทางของเราซึ่งไม่สามารถจัดการได้
4. บล็อกเส้นทางที่ยาวกว่า: เราสามารถใช้ Robots เพื่อบล็อกเส้นทางยาวที่เกินช่องป้อน URL
3. การใช้ Robots.txt
1. การสร้าง Robots.txt
สร้างไฟล์แผ่นจดบันทึกใหม่ในเครื่อง ตั้งชื่อเป็น Robots.txt จากนั้นวางไฟล์นี้ไว้ในไดเร็กทอรีรากของเรา เพื่อให้ Robots.txt ของเราถูกสร้างขึ้น จำเป็นต้องดาวน์โหลดจากไดเรกทอรีรากเท่านั้น
2. ไวยากรณ์ทั่วไป
ไวยากรณ์ User-agent ใช้เพื่อกำหนดโปรแกรมรวบรวมข้อมูลของเครื่องมือค้นหา Disallow แปลว่า ห้าม อนุญาต หมายถึง อนุญาต
ก่อนอื่นมาทำความรู้จักกับโปรแกรมรวบรวมข้อมูลของเครื่องมือค้นหาซึ่งก็คือสไปเดอร์หรือโรบ็อต
สำหรับ Baidu Spider เราเขียน Baiduspider ใน Robots และสำหรับหุ่นยนต์ของ Google เราเขียน Googlebot
เรามาแนะนำวิธีการเขียนบรรทัดแรกของเราคือการกำหนดเครื่องมือค้นหาก่อน
User-agent: Baiduspider (ควรให้ความสนใจเป็นพิเศษกับความจริงที่ว่าเมื่อเราเขียน Robots จะต้องมีช่องว่างหลังเครื่องหมายทวิภาค ขณะเดียวกันหากเราต้องการกำหนดเครื่องมือค้นหาทั้งหมด เราต้องใช้ * แทน Baiduspider )
ไม่อนุญาต: /admin/
ความหมายของประโยคนี้คือการบอก Baidu Spider ไม่ให้รวมหน้าเว็บไว้ในโฟลเดอร์ผู้ดูแลระบบของเว็บไซต์ของฉัน ถ้าเราลบเครื่องหมายทับหลังผู้ดูแลระบบ ความหมายจะเปลี่ยนไปโดยสิ้นเชิง โฟลเดอร์ของเว็บไซต์ของฉัน หน้าเว็บทั้งหมดในโฟลเดอร์ผู้ดูแลระบบในไดเรกทอรีรากของฉัน
Allow หมายความว่าอนุญาตหรือไม่อนุญาต โดยทั่วไปจะไม่ใช้ร่วมกับ Disallow วัตถุประสงค์ของการใช้ร่วมกันคือเพื่ออำนวยความสะดวกในการป้องกันไดเร็กทอรีและแอปพลิเคชันที่ยืดหยุ่น และเพื่อลดการใช้โค้ด มาดูกันดีกว่า / มีไฟล์ 100,000 ไฟล์ในโฟลเดอร์ SEO/ และมีสองไฟล์ที่ต้องรวบรวมข้อมูล เราไม่สามารถเขียนโค้ดได้หลายหมื่นโค้ด ซึ่งจะเหนื่อยมาก เราต้องการเพียงไม่กี่บรรทัดในการทำงาน ด้วยกัน.
User-agent: *(กำหนดเครื่องมือค้นหาทั้งหมด)
Disallow: /seo/ (ปิดการใช้งานการรวมโฟลเดอร์ seo)
อนุญาต: /seo/ccc.php
อนุญาต: /seo/ab.html
ปล่อยให้สองไฟล์นี้ถูกจับและรวมไว้พร้อมๆ กัน เพื่อที่เราจะได้แก้ปัญหาด้วยโค้ดสี่บรรทัด บางคนอาจถามว่าจะใส่ Disallow ไว้ข้างหน้าหรือ Allow ไว้ข้างหน้าจะมาตรฐานกว่า หรือ Disallow ถูกวางไว้ด้านหน้า
บทความนี้สร้างขึ้นโดย http://www.51diaoche.net โปรดระบุผู้เขียนต้นฉบับ
บรรณาธิการบริหาร: พื้นที่ส่วนตัวของ Yangyang Author Longfeng Hoisting Machinery