ดังที่คุณทราบ คุณไม่สามารถพึ่งพากลไกสไปเดอร์ในการทำงานได้อย่างมีประสิทธิภาพเสมอไปเมื่อเข้าถึงหรือจัดทำดัชนีไซต์ของคุณ สไปเดอร์จะสร้างเนื้อหาที่ซ้ำกันจำนวนมากโดยอาศัยพอร์ตของตัวเองทั้งหมด ถือว่าหน้าสำคัญเป็นเหมือนขยะ รายการลิงก์ดัชนีที่ไม่ควรแสดงต่อผู้ใช้ และมีปัญหาอื่นๆ มีเครื่องมือบางอย่างที่ช่วยให้เราควบคุมกิจกรรมของสไปเดอร์ภายในเว็บไซต์ได้อย่างเต็มที่ เช่น แท็ก meta robots, robots.txt, แท็ก Canonical เป็นต้น
วันนี้ผมจะพูดถึงข้อจำกัดของการใช้เทคโนโลยีควบคุมหุ่นยนต์ เพื่อป้องกันไม่ให้สไปเดอร์รวบรวมข้อมูลหน้าเว็บบางหน้า บางครั้งเว็บมาสเตอร์ใช้เทคโนโลยีควบคุมโรบ็อตหลายอย่างเพื่อห้ามเครื่องมือค้นหาไม่ให้เข้าถึงหน้าเว็บบางหน้า น่าเสียดายที่บางครั้งเทคนิคเหล่านี้อาจขัดแย้งกัน ในทางกลับกัน ข้อจำกัดดังกล่าวอาจซ่อนลิงก์ที่ไม่ทำงานบางลิงก์ได้
แล้วจะเกิดอะไรขึ้นเมื่อไฟล์โรบ็อตของเพจถูกบล็อกไม่ให้เข้าถึง หรือใช้กับแท็ก noindex และแท็ก Canonical
รีวิวด่วน
ก่อนที่เราจะเข้าหัวข้อนี้ เรามาดูเทคนิคข้อจำกัดบางประการของโรบอตกระแสหลักกันก่อน:
แท็กเมตาบอท
แท็ก Meta Robots กำหนดคำอธิบายอันดับหน้าสำหรับโรบ็อตเครื่องมือค้นหา ควรวางเมตาโรบ็อตแท็กไว้ที่ส่วนหัวของไฟล์ HTML
แท็กตามรูปแบบบัญญัติ
แท็ก Canonical คือเมตาแท็กระดับหน้าเว็บที่อยู่ในส่วนหัว HTML ของหน้าเว็บ มันบอกเครื่องมือค้นหาว่า URL ใดที่แสดงอย่างถูกต้อง จุดประสงค์คือเพื่อป้องกันไม่ให้เครื่องมือค้นหารวบรวมข้อมูลเนื้อหาที่ซ้ำกัน และในขณะเดียวกันก็เน้นน้ำหนักของหน้าที่ซ้ำกันบนหน้าที่มาตรฐาน
รหัสเป็นดังนี้:
<link rel="canonical" href=" http://example.com/quality-wrenches.htm"/ >
แท็ก X Robot
ตั้งแต่ปี 2550 Google และเครื่องมือค้นหาอื่นๆ ได้สนับสนุน X-Robots-Tag เพื่อบอกให้สไปเดอร์จัดลำดับความสำคัญของการรวบรวมข้อมูลและการจัดทำดัชนีไฟล์เพื่อใช้งาน แท็กนี้มีประโยชน์สำหรับการควบคุมการสร้างดัชนีของไฟล์ที่ไม่ใช่ HTML เช่น ไฟล์ PDF
แท็กหุ่นยนต์
robots.txt อนุญาตให้เครื่องมือค้นหาบางตัวเข้าสู่เว็บไซต์ แต่ไม่รับประกันว่าหน้าใดหน้าหนึ่งจะได้รับการรวบรวมข้อมูลและจัดทำดัชนีหรือไม่ เว้นแต่จะด้วยเหตุผลด้าน SEO นั้น robots.txt จะคุ้มค่าที่จะใช้ก็ต่อเมื่อมีความจำเป็นจริงๆ หรือมีโรบ็อตบนไซต์ที่ต้องถูกบล็อกเท่านั้น ฉันแนะนำให้ใช้แท็กข้อมูลเมตา "noindex" แทนเสมอ
หลีกเลี่ยงความขัดแย้ง
มันไม่ฉลาดเลยที่จะใช้สองวิธีเพื่อจำกัดการเข้าของหุ่นยนต์ในเวลาเดียวกัน:
· Meta Robots 'noindex'
· Canonical Tag (เมื่อชี้ไปยัง URL อื่น)
· Robots.txt ไม่อนุญาต
· X-Robots-Tag (แท็ก x หุ่นยนต์)
เท่าที่คุณต้องการให้เพจของคุณอยู่ในผลการค้นหา แนวทางเดียวย่อมดีกว่าสองแนวทางเสมอ มาดูว่าจะเกิดอะไรขึ้นเมื่อมีเทคนิคการควบคุมเส้นทางของโรบ็อตมากมายใน URL เดียว
แท็ก 'noindex' และ Canonical ของ Meta Robots
หากเป้าหมายของคุณคือการส่งต่อสิทธิ์ของ URL หนึ่งไปยัง URL อื่น และคุณไม่มีวิธีอื่นที่ดีกว่า คุณสามารถใช้ได้เฉพาะแท็ก Canonical เท่านั้น อย่าทำให้ตัวเองต้องเดือดร้อนกับ "noindex" ของเมตาโรบ็อตแท็ก หากคุณใช้วิธี two-robot เครื่องมือค้นหาอาจไม่เห็นแท็ก Canonical ของคุณเลย ผลกระทบของการถ่ายโอนน้ำหนักจะถูกละเว้น เนื่องจากแท็ก noindex ของหุ่นยนต์จะป้องกันไม่ให้เห็นแท็ก Canonical!
Meta Robots 'noindex' และ X-Robots-Tag 'noindex'
ป้ายกำกับเหล่านี้ซ้ำซ้อน เมื่อวางแท็กทั้งสองนี้ในหน้าเดียวกัน ฉันจะเห็นเฉพาะผลกระทบด้านลบต่อ SEO เท่านั้น หากคุณสามารถเปลี่ยนไฟล์ส่วนหัวใน metabot 'noindex' ได้ คุณไม่ควรใช้แท็ก xbot
Robots.txt ไม่อนุญาต &Meta Robots 'noindex'
ต่อไปนี้เป็นข้อขัดแย้งที่พบบ่อยที่สุดที่ฉันเคยพบเห็น:
เหตุผลที่ฉันชอบ "noindex" ของ Meta Robots เพราะมันป้องกันไม่ให้เพจถูกจัดทำดัชนีอย่างมีประสิทธิภาพ ในขณะที่ยังคงส่งน้ำหนักไปยังหน้าที่ลึกกว่าที่เชื่อมต่อกับเพจนี้ นี่เป็นแนวทางแบบ win-win ไฟล์ robots.txt ไม่ได้รับอนุญาตให้จำกัดเครื่องมือค้นหาโดยสิ้นเชิงไม่ให้เห็นข้อมูลบนหน้าเว็บ (และลิงก์ภายในอันมีค่าที่อยู่ภายใน) และโดยเฉพาะอย่างยิ่งไม่สามารถจำกัด URL จากการจัดทำดัชนีได้ ประโยชน์ที่ได้รับคืออะไร ฉันเคยเขียนบทความแยกต่างหากในหัวข้อนี้
หากใช้ทั้งสองแท็ก robots.txt รับประกันว่าจะทำให้ Meta Robots 'noindex' มองไม่เห็นสไปเดอร์ คุณจะได้รับผลกระทบจากการไม่อนุญาตใน robots.txt และพลาดสิทธิประโยชน์ทั้งหมดของ 'noindex' ของ Meta Robots
แหล่งที่มาของบทความคือ www.leadseo.cn Shanghai Leadseo ผู้เชี่ยวชาญด้านการเพิ่มประสิทธิภาพเว็บไซต์ โปรดเก็บแหล่งที่มาเมื่อพิมพ์ซ้ำ ขอบคุณมาก!
บรรณาธิการที่รับผิดชอบ: พื้นที่ส่วนตัวของ Chen Long Author frank12