Penemuan terbaru adalah bahwa Baidu Spider itu bodoh! Baru-baru ini, saya menemukan bahwa penyertaan Baidu di situs web sangat lambat. Saya pada dasarnya mengambil cuplikan baru dari beranda setelah beberapa hari, dan halaman lain pada dasarnya tidak disertakan! menyedihkan! Buka log IIS situs web dan periksa Saya mengunduh Baidu Spider dan terkejut! Saya membuat penemuan besar: Baidu Spider benar-benar bodoh!
1. Pertama mari kita lihat betapa bodohnya Baidu Spider. Berikut catatan aktivitas Baidu Spider di website saya.
1. 03-06-2009 21:26:05 W3SVC962713505 218.60.130.19 DAPATKAN /robots.txt - 80 - 123.125.64.15 Baiduspider+(+http://www.baidu.com/search/spider.htm) 404 0 64 ( Catatan: 404 menunjukkan robots.txt tidak ditemukan)
2. 03-06-2009 21:26:49 W3SVC962713505 218.60.130.19 DAPATKAN /index.asp - 80 - 123.125.64.15 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 64 ( Catatan: 200 menunjukkan bahwa file beranda index.asp ditemukan)
Terlihat dari aktivitas laba-laba Baidu terlebih dahulu masuk ke website untuk mencari file robots.txt. Jika tidak ada, cari homepage index.asp website tersebut. Setelah membandingkannya dengan homepage yang saat ini termasuk dalam Baidu , ternyata tidak ada perubahan dari aslinya, lalu pergi. Seperti kebanyakan webmaster, siapa yang tidak ingin memperbarui cuplikan halaman yang disertakan dalam Baidu dari waktu ke waktu? Tampaknya satu-satunya cara untuk menyelesaikan robots.txt adalah dengan mengarahkan laba-laba Baidu untuk menjelajahi situs saya.
2. Tulis robots.txt dan ajak Baidu melihat-lihat situs Anda.
robots.txt File ini harus ditulis. Apakah kalian semua tahu cara menulisnya secara spesifik? Jika belum, saya ulangi lagi.
Contoh 1. Nonaktifkan semua mesin pencari mengakses bagian mana pun dari situs web
Agen pengguna: *
Larang: /
Contoh 2. Izinkan semua robot mengakses
(Atau Anda juga dapat membuat file kosong "/robots.txt")
Agen pengguna: *
Melarang:
atau
Agen pengguna: *
Mengizinkan: /
(Catatan dari tabel: Ini perlu. Jangan membuat file kosong. Itu adalah Baidu yang sedang merokok. Yang terbaik adalah menulis kalimat berikut.)
Contoh 3. Hanya melarang Baiduspider mengakses situs web Anda
Agen pengguna: Baiduspider
Larang: /
Contoh 4. Hanya izinkan Baiduspider mengakses situs web Anda
Agen pengguna: Baiduspider
Melarang:
Agen pengguna: *
Larang: /
Contoh 5. Melarang laba-laba mengakses direktori tertentu
Dalam contoh ini, website memiliki tiga direktori yang membatasi akses mesin pencari, artinya robot tidak akan mengakses ketiga direktori tersebut. Perlu diperhatikan bahwa setiap direktori harus dideklarasikan secara terpisah dan tidak dapat ditulis sebagai "Disallow: /cgi-bin/ /tmp/".
Agen pengguna: *
Larang: /cgi-bin/
Larang: /tmp/
Larang: /~joe/
Contoh 6. Izinkan akses ke beberapa URL di direktori tertentu
Agen pengguna: *
Izinkan: /cgi-bin/lihat
Izinkan: /tmp/hai
Izinkan: /~joe/lihat
Larang: /cgi-bin/
Larang: /tmp/
Larang: /~joe/
Contoh 7. Gunakan "*" untuk membatasi akses ke URL
Akses ke semua URL dengan akhiran ".htm" (termasuk subdirektori) di direktori /cgi-bin/ dilarang.
Agen pengguna: *
Larang: /cgi-bin/*.htm
Contoh 8. Gunakan "$" untuk membatasi akses ke URL
Hanya URL dengan akhiran ".htm" yang boleh diakses.
Agen pengguna: *
Izinkan: .htm$
Larang: /
Contoh 9. Nonaktifkan akses ke semua halaman dinamis di website
Agen pengguna: *
Larang: /*?*
Contoh 10. Melarang Baiduspider meng-crawl semua gambar di website
Hanya halaman web yang boleh dirayapi, tidak ada gambar yang boleh dirayapi.
Agen pengguna: Baiduspider
Larang: .jpg$
Larang: .jpeg$
Larang: .gif$
Larang: .png$
Larang: .bmp$
Contoh 11. Hanya izinkan Baiduspider merayapi halaman web dan gambar berformat .gif
Diperbolehkan mengambil halaman web dan gambar dalam format gif, namun tidak diperbolehkan mengambil gambar dalam format lain.
Agen pengguna: Baiduspider
Izinkan: .gif$
Larang: .jpg$
Larang: .jpeg$
Larang: .png$
Larang: .bmp$
Contoh 12. Hanya melarang Baiduspider mengambil gambar berformat .jpg
Agen pengguna: Baiduspider
Larang: .jpg$
Lihatlah robots.txt yang ditulis di tabel itu sendiri, untuk referensi Anda
Salin kode
Agen pengguna: *
Larang: /admin/
Larang: /Lembut/
Izinkan: /gambar/
Izinkan: /html/
Izinkan: .htm$
Izinkan: .php$
Izinkan: .asp$
Izinkan: .gif$
Izinkan: .jpg$
Izinkan: .jpeg$
Izinkan: .png$
Izinkan: .bmp$
Mengizinkan: /
menjelaskan:
1. Izinkan pengindeksan oleh berbagai mesin pencari
2. Menonaktifkan pengindeksan direktori /admin. Ini tentu saja dilarang.
3. Nonaktifkan direktori keamanan penting seperti /soft
4. Izinkan akses ke direktori /images
5. Izinkan akses ke direktori /html
6. Izinkan akses ke semua file htm, php, asp, html
7. Memungkinkan mengambil gambar dalam format gif, jpg, jpeg, png, bmp
8. Memungkinkan perayapan file di direktori root situs web.
Oke, upload robots.txt Anda ke website dan direktori dan tunggu hingga Baidu Spider datang lagi. Ketika saatnya tiba, pemandu yang baik ini akan membawa si bodoh itu ke stasiun Anda dan berjalan-jalan. Penulis artikel ini dikumpulkan dan diterbitkan oleh jaringan grosir pakaian perdagangan luar negeri MOFHOT www.mofhot.com. Silakan tinggalkan tautan di A5. Terima kasih~ Tidak mudah untuk menerbitkan artikel.