Anda akan menemukan file robots.txt di FTP banyak situs web. Banyak webmaster hanya mengetahui bahwa ini adalah file yang membatasi akses spider.
Apa itu file robots? File ini adalah jembatan komunikasi antara mesin pencari dan situs web. Ini adalah file sintaksis yang disepakati antara keduanya. Setiap kali mesin pencari merayapi situs web, ia akan memeriksa file ini terlebih dahulu, seperti kuncinya pintu. Sama. Jika file ini tidak ada, berarti perayapan mesin pencari tidak dibatasi. Jika file ini ada, maka akan dirayapi sesuai dengan persyaratan yang ditentukan dalam file. Beberapa webmaster mungkin bertanya, ketika kita membangun sebuah situs web, kita pasti membutuhkannya untuk diindeks oleh mesin pencari, jadi mengapa kita harus membatasi perayapannya? Mesin pencari akan mencari seluruh situs selama proses perayapan, dan mungkin ada beberapa konten di situs Anda situs web yang Anda kumpulkan, atau halaman serupa tanpa konten substansial, maka evaluasi situs web Anda akan sangat berkurang setelah mesin pencari merayapinya, dan itu tidak akan memiliki efek SEO halaman mana yang tidak ingin dituju. Lihat, itu juga secara tidak langsung mengurangi beban di server.
Ada beberapa hal yang perlu diperhatikan tentang file ini:
1. Nama file tidak boleh salah dieja dan harus menggunakan huruf kecil, serta akhiran harus .txt.
2. File harus ditempatkan di direktori root situs web, seperti: http://www.taofengyu.com/robots.txt , dan harus dapat diakses.
3. Sintaks konten file harus benar. Umumnya, User-agent dan Disallow biasanya digunakan:
Agen-pengguna:* berarti semua spider mesin pencari diperbolehkan untuk dirayapi dan disertakan. Jika Anda tidak ingin Baidu menyertakan situs web Anda, ganti * dengan "baiduspider", maka konten yang dibatasi oleh Disallow tidak akan dirayapi dan disertakan oleh Baidu. laba-laba. Jika Anda ingin membatasi perayapan seluruh situs, maka file Disallow harus ditulis sebagai "Disallow:/". Jika Anda ingin membatasi file di folder tertentu agar tidak dirayapi, maka tulislah sebagai "Disallow:/admin /". Jika Anda Untuk membatasi perayapan file yang dimulai dengan admin, tulis "Larang:/admin", dan seterusnya. Anda ingin membatasi perayapan file di folder tertentu. Misalnya, Anda ingin membatasi perayapan file file index.htm di folder admin, maka sintaks Disallow ditulis sebagai "Disallow:/admin/index.htm". Jika tidak ada tanda "/" setelah Disallow, berarti semua halaman website boleh dirayapi dan disertakan.
Umumnya, laba-laba tidak perlu merayapi file manajemen latar belakang, fungsi program, file database, file style sheet, file template, beberapa gambar situs web, dll.
4. Fungsi Disallow harus ada di file robots, yang merupakan faktor kunci dalam pembuatan file ini.
Sekian tentang pentingnya dan cara kerja file robots, semoga dapat bermanfaat bagi semua orang.
Artikel ini berasal dari Jaringan Perlengkapan Mahasiswa Taofengyu http://www.taofengyu.com/ Harap sebutkan sumbernya saat mencetak ulang dan hormati karya penulis.
Ruang pribadi penulis untuk mainan anak-anak di Taobao