أصبح الإنترنت أكثر برودة أكثر فأكثر، وشعبية WWW في ذروتها. تطور نشر معلومات الشركة وإجراء التجارة الإلكترونية على الإنترنت من الموضة إلى الموضة. باعتبارك أحد مشرفي الويب، ربما تعرف HTML وJavascript وJava وActiveX جيدًا، ولكن هل تعرف ما هو Web Robot؟ هل تعرف ما هي العلاقة بين Web Robot والصفحة الرئيسية التي تصممها؟
المتجولون على الإنترنت --- Web Robot
في بعض الأحيان، ستجد لسبب غير مفهوم أن محتوى صفحتك الرئيسية مفهرس في محرك بحث، على الرغم من أنه لم يكن لديك أي اتصال به على الإطلاق. في الواقع، هذا هو بالضبط ما يفعله Web Robot. إن Web Robots هي في الواقع برامج يمكنها اجتياز بنية النص التشعبي لعدد كبير من عناوين URL على الإنترنت واسترداد جميع محتويات موقع الويب بشكل متكرر. تسمى هذه البرامج أحيانًا "العناكب" أو "Web Wanderers" أو "web worms" أو برامج زحف الويب. تحتوي بعض مواقع محركات البحث المعروفة (Search Engines) على شبكة الإنترنت على برامج Web Robot متخصصة لإكمال عملية جمع المعلومات، مثل Lycos وWebcrawler وAltavista وغيرها، بالإضافة إلى مواقع محركات البحث الصينية مثل Polaris وNetEase وGOYOYO، إلخ.
يشبه Web Robot ضيفًا غير مدعو، سواء كنت تهتم به أم لا، سيكون مخلصًا لمسؤوليات سيده، ويعمل بجد ودون كلل على شبكة الويب العالمية، وسيقوم أيضًا بزيارة صفحتك الرئيسية، واسترداد محتوى الصفحة الرئيسية وإنشاء تنسيق السجل الذي يحتاجه. ربما ترغب في أن يكون بعض محتوى الصفحة الرئيسية معروفًا للعالم، ولكن بعض المحتوى لا تريد أن يتم رؤيته أو فهرسته. هل يمكنك السماح له "بالتفشي" في مساحة صفحتك الرئيسية؟ هل يمكنك التحكم في مكان وجود Web Robot؟ الجواب بالطبع نعم. طالما قرأت بقية هذه المقالة، يمكنك أن تكون مثل شرطي المرور، حيث يضع علامات الطريق واحدة تلو الأخرى، ويخبر Web Robot بكيفية البحث في صفحتك الرئيسية، وأي منها يمكن البحث فيه، وأي منها لا يمكن الوصول إليه.
في الواقع، يستطيع Web Robot فهم كلماتك.
لا تعتقد أن Web Robot يتجول دون تنظيم أو سيطرة. توفر العديد من برامج Web Robot طريقتين لمسؤولي مواقع الويب أو منتجي محتوى الويب لتقييد مكان وجود Web Robots:
1. بروتوكول استبعاد الروبوتات
يمكن لمسؤولي مواقع الإنترنت إنشاء ملف منسق خصيصًا على الموقع للإشارة إلى أي جزء من الموقع يمكن الوصول إليه بواسطة robots. يتم وضع هذا الملف في الدليل الجذر للموقع، أي http://.../robots.txt
2. العلامة التعريفية للروبوتات
يمكن لمؤلف صفحة الويب استخدام علامة HTML META خاصة للإشارة إلى ما إذا كان web يمكن فهرسة الصفحة أو تحليلها أو ربطها.
هذه الأساليب مناسبة لمعظم روبوتات الويب. يعتمد تنفيذ هذه الأساليب في البرنامج على مطور الروبوت، ولا يمكن ضمان فعاليتها لأي روبوت. إذا كنت بحاجة ماسة إلى حماية المحتوى الخاص بك، فيجب عليك التفكير في طرق حماية إضافية مثل إضافة كلمات المرور.
استخدام بروتوكول استبعاد الروبوتات
عندما يزور Robot موقع ويب، مثل http://www.sti.net.cn/ ، فإنه يقوم أولاً بفحص الملف http://www.sti.net.cn/robots.txt. إذا كان هذا الملف موجودًا، فسيتم تحليله وفقًا لتنسيق السجل هذا:
User-agent: *
عدم السماح: /cgi-bin/
عدم السماح: /tmp/
عدم السماح: /~جو/
لتحديد ما إذا كان ينبغي استرداد ملفات الموقع. ربما لن يتمكن المشاهدون العاديون من رؤية هذا الملف أبدًا، لذا لا تقم بإضافة عبارات HTML مثل <img src=*> أو "كيف حالك؟" تحيات كاذبة أخرى.
يمكن أن يكون هناك ملف "/robots.txt" واحد فقط على الموقع، ويجب أن يكون كل حرف من اسم الملف بأحرف صغيرة. يشير كل سطر "Disallow" منفصل في تنسيق سجل Robot إلى عنوان URL الذي لا تريد أن يصل إليه Robot. يجب أن يشغل كل عنوان URL سطرًا منفصلاً، ولا يمكن أن تظهر الجمل المريضة مثل "Disallow: /cgi-bin/ /tmp/". وفي الوقت نفسه، لا يمكن أن تظهر الأسطر الفارغة في السجل، لأن الأسطر الفارغة هي علامة على تقسيم سجلات متعددة.
يشير سطر وكيل المستخدم إلى اسم الروبوت أو الوكيل الآخر. في سطر وكيل المستخدم، "*" له معنى خاص --- جميع الروبوتات.
فيما يلي بعض الأمثلة على ملفات robot.txt التي
تنكر كافة ملفات الروبوت الموجودة على الخادم بأكمله:
وكيل المستخدم: *
عدم السماح: /
السماح لجميع الروبوتات بالوصول إلى الموقع بأكمله:
وكيل المستخدم: *
عدم السماح:
أو قم بإنشاء ملف "/robots.txt" فارغ.
يمكن لجميع الروبوتات الوصول إلى أجزاء من الخادم
وكيل المستخدم: *
عدم السماح: /cgi-bin/
عدم السماح: /tmp/
عدم السماح: /خاص/
رفض روبوت محدد:
وكيل المستخدم: BadBot
عدم السماح: /
السماح لروبوت واحد فقط بالزيارة:
وكيل المستخدم: WebCrawler
عدم السماح:
وكيل المستخدم: *
عدم السماح: /
أخيرًا نقدم ملف robots.txt على الموقع http://www.w3.org/ :
# للاستخدام بواسطة search.w3.org
وكيل المستخدم: W3Crobot/1
عدم السماح:
وكيل المستخدم: *
Disallow: /Member/ # هذا يقتصر على أعضاء W3C فقط
Disallow: / member / # هذا يقتصر على أعضاء W3C فقط
عدم السماح: /team/ # هذا يقتصر على فريق W3C فقط
عدم السماح: /TandS/Member # هذا مقصور على أعضاء W3C فقط
عدم السماح: /TandS/Team # هذا مقصور على فريق W3C فقط
عدم السماح: / المشروع
عدم السماح: / الأنظمة
عدم السماح: /Web
عدم السماح: / الفريق
استخدام علامة Robots META
تسمح علامة Robots META لمؤلفي صفحات ويب HTML بالإشارة إلى إمكانية فهرسة الصفحة أو ما إذا كان يمكن استخدامها للعثور على المزيد من الملفات المرتبطة. حاليًا، بعض الروبوتات فقط هي التي تنفذ هذه الميزة.
تنسيق علامة Robots META هو:
<اسم التعريف = "الروبوتات" المحتوى = "NOINDEX، NOFOLLOW">
مثل العلامات التعريفية الأخرى، يجب وضعها في منطقة الرأس لملف HTML:
<أتش تي أم أل>
<الرأس>
<meta name="robots" content="noindex,nofollow">
<meta name="description" content="هذه الصفحة...">
<العنوان>...</العنوان>
</الرأس>
<الجسم>
...
يتم فصل تعليمات العلامة التعريفية للروبوتات بفواصل. تتضمن الإرشادات التي يمكن استخدامها [NO]INDEX و[NO] FOLLOW. يشير التوجيه INDEX إلى ما إذا كان بإمكان روبوت الفهرسة فهرسة هذه الصفحة؛ ويشير التوجيه FOLLOW إلى ما إذا كان الروبوت يمكنه متابعة الروابط إلى هذه الصفحة. الافتراضي هو INDEX وFOLLOW. على سبيل المثال:
<meta name="robots" content="index,follow">
<meta name="robots" content="noindex,follow">
<meta name="robots" content="index,nofollow">
<meta name="robots" content="noindex,nofollow">
يجب على مسؤول موقع الويب الجيد أن يأخذ إدارة الروبوتات في الاعتبار حتى تتمكن الروبوتات من خدمة صفحتها الرئيسية دون المساس بأمان صفحات الويب الخاصة بها.