อินเทอร์เน็ตเริ่มเย็นลงเรื่อยๆ และความนิยมของ WWW ก็อยู่ที่จุดสูงสุด การเผยแพร่ข้อมูลบริษัทและการดำเนินการอีคอมเมิร์ซบนอินเทอร์เน็ตได้พัฒนาจากแฟชั่นสู่แฟชั่น ในฐานะ Web Master คุณอาจรู้จัก HTML, Javascript, Java และ ActiveX เป็นอย่างดี แต่คุณรู้หรือไม่ว่า Web Robot คืออะไร คุณรู้หรือไม่ว่า Web Robot และหน้าแรกที่คุณออกแบบมีความสัมพันธ์กันอย่างไร?
ผู้พเนจรบนอินเทอร์เน็ต --- Web Robot
บางครั้งคุณจะพบว่าเนื้อหาในหน้าแรกของคุณถูกจัดทำดัชนีไว้ในเครื่องมือค้นหาอย่างอธิบายไม่ได้ แม้ว่าคุณจะไม่เคยติดต่อกับพวกเขาเลยก็ตาม อันที่จริงนี่คือสิ่งที่ Web Robot ทำ จริงๆ แล้ว Web Robots เป็นโปรแกรมที่สามารถสำรวจโครงสร้างไฮเปอร์เท็กซ์ของ URL อินเทอร์เน็ตจำนวนมาก และดึงเนื้อหาทั้งหมดของเว็บไซต์แบบเรียกซ้ำ โปรแกรมเหล่านี้บางครั้งเรียกว่า "spiders", "Web Wanderers", "web worms" หรือ Web crawler ไซต์เครื่องมือค้นหา (Search Engines) ที่มีชื่อเสียงบางแห่งบนอินเทอร์เน็ตมีโปรแกรม Web Robot เฉพาะเพื่อรวบรวมข้อมูลให้สมบูรณ์ เช่น Lycos, Webcrawler, Altavista เป็นต้น รวมถึงไซต์เครื่องมือค้นหาของจีน เช่น Polaris, NetEase, GOYOYO, ฯลฯ
เว็บโรบ็อตเป็นเหมือนแขกที่ไม่ได้รับเชิญ ไม่ว่าคุณจะสนใจมันหรือไม่ก็ตาม มันจะภักดีต่อความรับผิดชอบของเจ้านาย ทำงานหนักและไม่เหน็ดเหนื่อยบนเวิลด์ไวด์เว็บ แน่นอนว่ามันจะไปที่หน้าแรกของคุณเพื่อดึงเนื้อหาของมันด้วย หน้าแรกและสร้างรูปแบบบันทึกที่ต้องการ บางทีคุณอาจต้องการให้เนื้อหาในหน้าแรกเป็นที่รู้จักไปทั่วโลก แต่มีเนื้อหาบางส่วนที่คุณไม่ต้องการให้เห็นหรือจัดทำดัชนี คุณสามารถปล่อยให้มัน "วิ่งอาละวาด" ในพื้นที่หน้าแรกของคุณได้ไหม คุณสามารถสั่งและควบคุมที่อยู่ของ Web Robot ได้หรือไม่? คำตอบคือใช่แน่นอน ตราบใดที่คุณอ่านส่วนที่เหลือของบทความนี้ คุณก็สามารถเป็นเหมือนตำรวจจราจร โดยวางป้ายจราจรทีละป้าย บอก Web Robot ถึงวิธีการค้นหาหน้าแรกของคุณ หน้าไหนที่สามารถค้นหาได้ และหน้าไหนที่ไม่สามารถเข้าถึงได้
ในความเป็นจริง Web Robot สามารถเข้าใจคำพูดของคุณได้
อย่าคิดว่า Web Robot กำลังดำเนินไปโดยปราศจากการจัดระเบียบและการควบคุม ซอฟต์แวร์ Web Robot จำนวนมากมีสองวิธีสำหรับผู้ดูแลระบบเว็บไซต์หรือผู้ผลิตเนื้อหาเว็บเพื่อจำกัดตำแหน่งของ Web Robots:
1. Robots Exclusion Protocol
ผู้ดูแลระบบของไซต์อินเทอร์เน็ตสามารถสร้างไฟล์ที่มีรูปแบบพิเศษบนไซต์เพื่อระบุว่าส่วนใดของไซต์ที่สามารถเข้าถึงได้ โดย robots ไฟล์นี้วางอยู่ในไดเร็กทอรีรากของไซต์ เช่น http://.../robots.txt
2. Robots META tag
ผู้เขียนหน้าเว็บสามารถใช้แท็ก HTML META พิเศษเพื่อระบุว่าเป็นเว็บหรือไม่ เพจสามารถจัดทำดัชนี วิเคราะห์ หรือเชื่อมโยงได้
วิธีการเหล่านี้เหมาะสำหรับเว็บโรบอตส่วนใหญ่ ไม่ว่าวิธีการเหล่านี้จะถูกนำมาใช้ในซอฟต์แวร์หรือไม่นั้นขึ้นอยู่กับผู้พัฒนาโรบ็อต และไม่รับประกันว่าจะมีประสิทธิภาพสำหรับโรบ็อตใด ๆ หากคุณต้องการปกป้องเนื้อหาของคุณอย่างเร่งด่วน คุณควรพิจารณาวิธีการป้องกันเพิ่มเติม เช่น การเพิ่มรหัสผ่าน
การใช้ Robots Exclusion Protocol
เมื่อ Robot เยี่ยมชมเว็บไซต์ เช่น http://www.sti.net.cn/ มันจะตรวจสอบไฟล์ http://www.sti.net.cn/robots.txt ก่อน หากมีไฟล์นี้อยู่ ระบบจะวิเคราะห์ตามรูปแบบบันทึกนี้:
User-agent: *
ไม่อนุญาต: /cgi-bin/
ไม่อนุญาต: /tmp/
ไม่อนุญาต: /~โจ/
เพื่อพิจารณาว่าควรเรียกคืนไฟล์ของไซต์หรือไม่ บันทึกเหล่านี้มีไว้สำหรับ Web Robot โดยเฉพาะ ผู้ดูทั่วไปอาจไม่เคยเห็นไฟล์นี้ ดังนั้นอย่าเพิ่มคำสั่ง HTML เช่น <img src=*> หรือ "How do you do" ในนั้น คำทักทายเท็จอื่น ๆ
ไซต์สามารถมีไฟล์ "/robots.txt" ได้เพียงไฟล์เดียวเท่านั้น และตัวอักษรแต่ละตัวของชื่อไฟล์จะต้องเป็นตัวพิมพ์เล็กทั้งหมด แต่ละบรรทัด "Disallow" ที่แยกจากกันในรูปแบบบันทึกของ Robot ระบุ URL ที่คุณไม่ต้องการให้ Robot เข้าถึง แต่ละ URL ต้องใช้บรรทัดที่แยกจากกัน และประโยคที่ไม่เหมาะสม เช่น "Disallow: /cgi-bin/ /tmp/" ไม่สามารถปรากฏได้ ในเวลาเดียวกัน บรรทัดว่างไม่สามารถปรากฏในเรกคอร์ดได้ เนื่องจากบรรทัดว่างเป็นสัญลักษณ์ของการแบ่งหลายเรคคอร์ด
บรรทัดตัวแทนผู้ใช้ระบุชื่อของหุ่นยนต์หรือตัวแทนอื่นๆ ในบรรทัด User-agent '*' มีความหมายพิเศษ---โรบ็อตทั้งหมด
นี่คือตัวอย่างบางส่วนของ robot.txts ที่
ปฏิเสธโรบ็อตทั้งหมดบนเซิร์ฟเวอร์ทั้งหมด:
ตัวแทนผู้ใช้: *
Disallow: /
อนุญาตให้โรบอตทั้งหมดเข้าถึงทั้งไซต์:
ตัวแทนผู้ใช้: *
ไม่อนุญาต:
หรือสร้างไฟล์ "/robots.txt" ที่ว่างเปล่า
หุ่นยนต์ทุกตัวสามารถเข้าถึงบางส่วนของเซิร์ฟเวอร์ได้
ตัวแทนผู้ใช้: *
ไม่อนุญาต: /cgi-bin/
ไม่อนุญาต: /tmp/
Disallow: /private/
ปฏิเสธหุ่นยนต์เฉพาะ:
ตัวแทนผู้ใช้: BadBot
ไม่อนุญาต: /
อนุญาตให้มีหุ่นยนต์เพียงตัวเดียวเท่านั้นที่จะเยี่ยมชม:
ตัวแทนผู้ใช้: WebCrawler
ไม่อนุญาต:
ตัวแทนผู้ใช้: *
ไม่อนุญาต: /
สุดท้ายนี้ เราก็ให้ robots.txt บนเว็บไซต์ http://www.w3.org/ :
# สำหรับการใช้งานโดย search.w3.org
ตัวแทนผู้ใช้: W3Crobot/1
ไม่อนุญาต:
ตัวแทนผู้ใช้: *
ไม่อนุญาต: /สมาชิก/ # สิ่งนี้จำกัดเฉพาะสมาชิก W3C เท่านั้น
Disallow: /member/ # สิ่งนี้จำกัดเฉพาะสมาชิก W3C เท่านั้น
Disallow: /team/ # สิ่งนี้จำกัดเฉพาะทีม W3C เท่านั้น
Disallow: /TandS/Member # สิ่งนี้จำกัดเฉพาะสมาชิก W3C เท่านั้น
Disallow: /TandS/Team # สิ่งนี้จำกัดเฉพาะทีม W3C เท่านั้น
ไม่อนุญาต: /Project
ไม่อนุญาต: /Systems
ไม่อนุญาต: /เว็บ
ไม่อนุญาต: /ทีม
การใช้แท็ก META ของ Robots แท็ก
META ของ Robots ช่วยให้ผู้เขียนหน้าเว็บ HTML ระบุว่าสามารถจัดทำดัชนีหน้าเว็บได้หรือไม่ หรือสามารถใช้เพื่อค้นหาไฟล์ที่เชื่อมโยงเพิ่มเติมได้หรือไม่ ในปัจจุบัน มีเพียงโรบ็อตบางตัวเท่านั้นที่ใช้คุณสมบัตินี้
รูปแบบของแท็ก Robots META คือ:
<META NAME="หุ่นยนต์" เนื้อหา="NOINDEX, NOFOLLOW">
เช่นเดียวกับแท็ก META อื่นๆ ควรวางไว้ในพื้นที่ HEAD ของไฟล์ HTML:
<html>
<หัว>
<meta name="robots" content="noindex,nofollow">
<meta name="description" content="หน้านี้ ....">
<title>...</title>
</หัว>
<ร่างกาย>
...
คำแนะนำของโรบ็อต META tag จะคั่นด้วยเครื่องหมายจุลภาค คำแนะนำที่สามารถใช้ได้ ได้แก่ [NO]INDEX และ [NO] FOLLOW คำสั่ง INDEX บ่งชี้ว่าหุ่นยนต์จัดทำดัชนีสามารถสร้างดัชนีหน้านี้ได้หรือไม่ คำสั่ง FOLLOW บ่งชี้ว่าหุ่นยนต์สามารถติดตามลิงก์ไปยังหน้านี้ได้หรือไม่ ค่าเริ่มต้นคือ INDEX และ FOLLOW ตัวอย่างเช่น:
<meta name="robots" content="index,follow">
<meta name="robots" content="noindex,follow">
<meta name="robots" content="index,nofollow">
<meta name="robots" content="noindex,nofollow">
ผู้ดูแลเว็บไซต์ที่ดีควรคำนึงถึงการจัดการโรบอตด้วย เพื่อให้โรบอตสามารถให้บริการหน้าแรกของตนเองได้ โดยไม่กระทบต่อความปลอดภัยของหน้าเว็บของตนเอง