آخر اكتشاف هو أن Baidu Spider أحمق! لقد وجدت مؤخرًا أن تضمين Baidu للموقع بطيء جدًا. لقد التقطت لقطة جديدة للصفحة الرئيسية بعد بضعة أيام ، ولم يتم تضمين الصفحات الأخرى بشكل محبط حقًا! محبط! افتح سجل IIS الخاص بالموقع وتحقق منه لقد قمت بتنزيل Baidu Spider وشعرت بالصدمة!
1. دعونا نلقي نظرة أولاً على مدى غباء Baidu Spider. فيما يلي سجل نشاط Baidu Spider على موقع الويب الخاص بي.
1. 2009-06-03 21:26:05 W3SVC962713505 218.60.130.19 الحصول على /robots.txt - 80 - 123.125.64.15 Baiduspider+(+http://www.baidu.com/search/spider.htm) 404 0 64 ( ملاحظة: 404 يشير إلى عدم العثور على ملف robots.txt)
2. 2009-06-03 21:26:49 W3SVC962713505 218.60.130.19 GET /index.asp - 80 - 123.125.64.15 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 64 ( ملاحظة: يشير الرقم 200 إلى أنه تم العثور على ملف الصفحة الرئيسية Index.asp)
ويتبين من ذلك أن أنشطة عنكبوت Baidu تذهب أولاً إلى موقع الويب للعثور على الملف robots.txt، وإذا لم يكن موجودًا، فابحث عن الصفحة الرئيسية الخاصة بالموقع، بعد مقارنتها بالصفحة الرئيسية المضمنة حاليًا في Baidu ، فوجد أنه لا تغيير عن الأصل، ثم يترك. مثل معظم مشرفي المواقع، من منا لا يرغب في تحديث لقطات من الصفحات المضمنة في Baidu من وقت لآخر؟ يبدو أن الطريقة الوحيدة لإكمال ملف robots.txt هي قيادة عناكب Baidu للتجول في موقعي.
2. اكتب ملف robots.txt واصطحب Baidu للتجول في موقعك.
robots.txt يجب كتابة هذا الملف. هل تعلمون جميعا كيفية كتابتها على وجه التحديد؟ إذا لم يكن الأمر كذلك، سأكررها مرة أخرى.
مثال 1. تعطيل كافة محركات البحث من الوصول إلى أي جزء من الموقع
وكيل المستخدم: *
عدم السماح: /
مثال 2. السماح لجميع الروبوتات بالوصول
(أو يمكنك أيضًا إنشاء ملف فارغ "/robots.txt")
وكيل المستخدم: *
عدم السماح:
أو
وكيل المستخدم: *
يسمح: /
(ملاحظة من الجدول: هذا ضروري. لا تقم بإنشاء ملف فارغ. هذا هو تدخين بايدو. من الأفضل كتابة الجملة التالية.)
مثال 3. قم فقط بحظر Baiduspider من الوصول إلى موقع الويب الخاص بك
وكيل المستخدم: Baiduspider
عدم السماح: /
مثال 4. السماح لـ Baiduspider فقط بالوصول إلى موقع الويب الخاص بك
وكيل المستخدم: Baiduspider
عدم السماح:
وكيل المستخدم: *
عدم السماح: /
مثال 5. منع العناكب من الوصول إلى أدلة محددة
في هذا المثال، يحتوي موقع الويب على ثلاثة أدلة تقيد الوصول إلى محرك البحث، أي أن الروبوت لن يصل إلى هذه الأدلة الثلاثة. تجدر الإشارة إلى أنه يجب الإعلان عن كل دليل بشكل منفصل ولا يمكن كتابته كـ "Disallow: /cgi-bin/ /tmp/".
وكيل المستخدم: *
عدم السماح: /cgi-bin/
عدم السماح: /tmp/
عدم السماح: /~جو/
مثال 6. السماح بالوصول إلى بعض عناوين URL في دليل محدد
وكيل المستخدم: *
السماح: /cgi-bin/see
السماح: /tmp/hi
السماح: /~جو/look
عدم السماح: /cgi-bin/
عدم السماح: /tmp/
عدم السماح: /~جو/
مثال 7. استخدم "*" لتقييد الوصول إلى عناوين URL
يحظر الوصول إلى كافة عناوين URL التي تحتوي على اللاحقة ".htm" (بما في ذلك الدلائل الفرعية) في الدليل /cgi-bin/.
وكيل المستخدم: *
عدم السماح: /cgi-bin/*.htm
مثال 8. استخدم "$" لتقييد الوصول إلى عناوين URL
يُسمح فقط بالوصول إلى عناوين URL التي تحتوي على اللاحقة ".htm".
وكيل المستخدم: *
السماح: .htm$
عدم السماح: /
مثال 9. تعطيل الوصول إلى كافة الصفحات الديناميكية في موقع الويب
وكيل المستخدم: *
عدم السماح: /*؟*
مثال 10. منع Baiduspider من الزحف إلى جميع الصور الموجودة على موقع الويب
يُسمح بالزحف إلى صفحات الويب فقط، ولا يُسمح بالزحف إلى الصور.
وكيل المستخدم: Baiduspider
عدم السماح: .jpg$
عدم السماح: .jpeg$
عدم السماح: .gif$
عدم السماح: .png$
عدم السماح: .bmp$
مثال 11. السماح لـ Baiduspider فقط بالزحف إلى صفحات الويب والصور بتنسيق .gif
يُسمح بالتقاط صفحات الويب والصور بتنسيق GIF، لكن لا يُسمح بالتقاط الصور بتنسيقات أخرى.
وكيل المستخدم: Baiduspider
السماح: .gif$
عدم السماح: .jpg$
عدم السماح: .jpeg$
عدم السماح: .png$
عدم السماح: .bmp$
مثال 12. منع Baiduspider فقط من الاستيلاء على صور بتنسيق jpg
وكيل المستخدم: Baiduspider
عدم السماح: .jpg$
قم بإلقاء نظرة على ملف robots.txt المكتوب بواسطة الجدول نفسه، للرجوع إليه
نسخ الرمز
وكيل المستخدم: *
عدم السماح: /admin/
عدم السماح: / ناعم /
السماح: /الصور/
السماح: /html/
السماح: .htm$
السماح: .php$
السماح: .asp$
السماح: .gif$
السماح: .jpg$
السماح: .jpeg$
السماح: .png$
السماح: .bmp$
يسمح: /
يشرح:
1. السماح بالفهرسة بواسطة محركات البحث المختلفة
2. تعطيل فهرسة الدليل /admin وهذه هي الواجهة الخلفية للموقع بالطبع.
3. قم بتعطيل أدلة الأمان المهمة مثل /soft
4. السماح بالوصول إلى دليل / الصور
5. السماح بالوصول إلى الدليل /html
6. السماح بالوصول إلى كافة ملفات htm، php، asp، html
7. يسمح بالتقاط الصور بتنسيقات gif و jpg و jpeg و png و bmp
8. يسمح بالزحف إلى الملفات الموجودة في الدليل الجذر للموقع.
حسنًا، قم بتحميل ملف robots.txt الخاص بك إلى موقع الويب والدليل وانتظر حتى يأتي Baidu Spider مرة أخرى. عندما يحين الوقت، سيأخذ هذا الدليل الجيد ذلك الأحمق إلى محطتك ويتجول فيه. تم جمع مؤلف هذا المقال ونشره بواسطة شبكة MOFHOT للتجارة الخارجية للملابس بالجملة www.mofhot.com. يرجى ترك رابط في A5 شكرًا لك ~ ليس من السهل نشر مقال.