لقد وعدت بكتابة مقال لـ Ah Bin منذ وقت طويل وأنا ممتن لمساعدته لي، لكنني لم أكتبه حتى الآن، رأيت Zhuo Shao يطرح سؤالاً حول الروبوتات، وقمت بتجميعه دعونا نتحدث عن بعض مواقف الروبوتات. يتم وضع ملف robots.txt في الدليل الجذر لموقع الويب وهو الملف الأول الذي تعرضه محركات البحث عند الوصول إلى موقع الويب. عندما يزور عنكبوت البحث موقعًا ما، فإنه سيتحقق أولاً مما إذا كان ملف robots.txt موجودًا في الدليل الجذر للموقع، وإذا كان موجودًا، فسيحدد روبوت البحث نطاق الوصول بناءً على محتويات الملف إذا كان موجودًا غير موجود، ستتمكن جميع عناكب البحث من الوصول إلى جميع الصفحات الموجودة على موقع الويب غير المحمية بكلمة مرور. يجب أن يحتوي كل موقع ويب على روبوت، يخبر محركات البحث بالأشياء الموجودة على موقع الويب الخاص بي التي لا يُسمح بالزحف إليها، والصفحات التي يُرحب بالزحف إليها والزحف إليها.
عدة وظائف للروبوتات:
1. قم بحظر جميع محركات البحث من الزحف إلى المعلومات. إذا كان موقع الويب الخاص بك هو موقع الويب الخاص بك فقط ولا تريد أن يعرفه الكثير من الأشخاص، فيمكنك استخدام الروبوتات لحظر جميع محركات البحث، مثل مدونة خاصة تكتبها. يمكنك حظر كافة محركات البحث
وكيل المستخدم: *
عدم السماح: /
2. إذا كنت تريد فقط أن يقوم محرك بحث معين بالزحف إلى معلوماتك، فيمكنك استخدام الروبوتات لإعداده في هذا الوقت. على سبيل المثال: أريد فقط تضمين موقع الويب الخاص بي في Baidu، وليس محركات البحث الأخرى. يمكنك استخدام الروبوتات لإعداده
وكيل المستخدم: Baiduspider
يسمح:
وكيل المستخدم: *
عدم السماح: /
3. يمكنك استخدام أحرف البدل المختلفة لتكوين موقع الويب وفقًا لذلك، على سبيل المثال، إذا كنت لا أرغب في أن يقوم موقع الويب بالزحف إلى جميع الصور الخاصة بي، فيمكنني استخدام $ لإعداده. بشكل عام، تنسيقات الصور الشائعة لدينا هي BMP، وJPG، وGIF، وJPEG، وغيرها من التنسيقات. الإعدادات في هذا الوقت هي:
وكيل المستخدم: *
عدم السماح: /.bmp$
عدم السماح: /.jpg$
عدم السماح: /.gif$
عدم السماح: /.jpeg$
4. يمكنك أيضًا استخدام * لحظر عناوين URL ذات الصلة عندما لا تسمح بعض مواقع الويب لمحركات البحث بالزحف إلى العناوين الديناميكية، يمكنك استخدام حرف البدل * هذا لتعيين الإعدادات المطابقة. في الظروف العادية، إحدى خصائص عناوين URL الديناميكية هي وجود "؟". في الوقت الحالي، يمكننا استخدام هذه الميزة لإجراء حظر المطابقة:
وكيل المستخدم: *
عدم السماح: /*؟*
5. إذا تمت مراجعة موقع الويب واختفى المجلد بأكمله، في هذه الحالة، يجب أن تفكر في حظر المجلد بأكمله. يمكننا استخدام الروبوتات لحظر المجلد بأكمله، على سبيل المثال، تم حذف المجلد ab الموجود في موقع الويب بسبب المراجعة، وفي هذه الحالة يمكن ضبطه على النحو التالي:
وكيل المستخدم: *
عدم السماح: /أب/
6. إذا كان هناك مجلد في موقع الويب لا تريد تضمينه، ولكن هناك معلومات في هذا المجلد مسموح بتضمينها. ثم يمكنك استخدام السماح للروبوتات لتعيينه. على سبيل المثال، لا يُسمح لمحركات البحث بالزحف إلى المجلد ab الموجود في موقع الويب الخاص بي، ولكن يوجد قرص مضغوط للمعلومات في المجلد ab يُسمح بالزحف إليه في هذا الوقت، يمكنك استخدام الروبوتات لتعيينه:
وكيل المستخدم: *
عدم السماح: /أب/
السماح:/ab/cd
7. يمكن تحديد موقع خريطة الموقع في الروبوتات، وهو أمر مفيد لإدراج الموقع.
خريطة الموقع: <موقع خريطة الموقع>
8. في بعض الأحيان ستجد أنه تم إعداد برامج الروبوت في موقع الويب الخاص بي ولكنك تجد أيضًا أنها تتضمن عنوان URL هذا والسبب في ذلك هو أن عنكبوت محرك البحث هذا يزحف إلى صفحة الويب من خلال عنوان URL بشكل عام لا يوجد عنوان ووصف مثل هذا، ولكن عندما يقوم Baidu بالزحف إلى عنوان URL هذا، فإنه سيجلب العنوان والوصف، لذلك سيقول الكثير من الأشخاص أنني قمت بإعداد الروبوتات ولكن ليس له أي تأثير. الوضع الفعلي هو أنه تم الزحف إلى الرابط ولكن لم يتم تضمين محتوى الصفحة.
الصفحة الرئيسية للموقع هي ذات الوزن الأعلى، ويتم نقل الوزن عن طريق الروابط، وقمنا بإعداد روبوتات لنقل الوزن بشكل أفضل إلى تلك الصفحات التي تحتاج إلى وزن مرتفع، وبعض الصفحات لا تحتاج إلى الزحف والزحف عن طريق البحث. محركات.
المحرر المسؤول: تشين لونغ المؤلف︶ المساحة الشخصية لشيتو بينغ