File Robots.txt adalah teks TXT sederhana, tetapi para SEOer yang fokus pada konstruksi situs web dan pengoptimalan situs web semua mengetahui pentingnya keberadaannya dapat memblokir halaman yang tidak ingin dirayapi oleh mesin pencari, atau bisa juga seperti gambar peta juga memandu jalan bagi laba-laba. Saat laba-laba merayapi suatu situs, hal pertama yang diaksesnya adalah apakah file Robots.txt ada, kemudian ia melakukan akses indeks sesuai pedoman di konten tautan di halaman tersebut. Oleh karena itu, kita dapat menggunakannya untuk memblokir beberapa direktori yang tidak perlu diindeks oleh mesin pencari, atau mendeskripsikan peta situs di Robots.txt untuk memandu spider melakukan crawling. Ini sangat ampuh untuk keamanan situs web atau menghemat bandwidth server dan memandu pengindeksan Dapat dikatakan telah mencapai efek menonjolkan kelebihan diri sendiri dan menghindari kelemahan diri sendiri. Mari kita lakukan analisa detailnya di bawah ini.
1. Gunakan Robots.txt untuk menghemat bandwidth server
Secara umum, webmaster jarang melakukan pengaturan seperti itu. Namun, ketika server memiliki jumlah kunjungan yang banyak dan konten yang terlalu banyak, maka perlu dilakukan pengaturan untuk menghemat bandwidth server, seperti memblokir folder seperti: gambar, yang mana. berguna untuk pengindeksan mesin pencari. Ini tidak memiliki arti praktis dan menghabiskan banyak bandwidth. Untuk situs web bergambar, konsumsinya bahkan lebih mencengangkan, jadi penggunaan Robots.txt dapat menyelesaikan masalah ini sepenuhnya.
2. Lindungi direktori keamanan situs web
Secara umum, saat menyiapkan Robots.txt, direktori manajemen, database, dan direktori cadangan harus diatur untuk mencegah perayapan spider. Jika tidak, kebocoran data dapat dengan mudah terjadi dan memengaruhi keamanan situs web. Tentu saja, ada direktori lain yang administrator tidak ingin diindeks oleh spider, yang juga dapat diatur, sehingga mesin pencari dapat secara ketat mematuhi aturan pengindeksan ini.
3. Melarang mesin pencari mengindeks halaman
Selalu ada beberapa halaman di situs web yang kami tidak ingin dilihat publik. Saat ini, kami dapat menggunakan Robots.txt untuk mengaturnya guna mencegah laba-laba mengindeksnya kecepatannya lambat dan saya memperbarui artikel, menghasilkan penerbitan yang terus menerus dan berulang. Saya mencari 3 kali dan semua hasilnya terindeks oleh mesin pencari. Konten duplikat jelas tidak baik untuk optimasi situs web. Saat ini, Anda dapat mengatur Robots.txt untuk memblokir halaman yang berlebihan.
4. Peta situs tautan Robots.txt
Karena hal pertama yang dilihat laba-laba ketika mengunjungi situs web adalah file Robots.txt, kita dapat mengatur peta situs di dalamnya, yang akan membantu laba-laba mengindeks informasi terbaru dan menghindari banyak kesalahan yang tidak perlu. Misalnya, halaman peta perusahaan konstruksi situs web profesional Pilot Technology ditampilkan: http://www.****.net.cn/ sitemap.xml. Menambahkannya ke Robots.txt bahkan lebih kondusif untuk pengindeksan mesin pencari . Anda tidak perlu membuka mesin pencari setiap hari untuk mengirimkan file peta.
5. Metode penulisan dan tindakan pencegahan
Gaya penulisan Robots.txt harus standar, banyak orang yang asal-asalan dalam menulis. Pertama-tama: User-agent:* harus ditulis, * artinya untuk semua mesin pencari. Disallow: (direktori file) tidak menyertakan tanda kurung, yang berarti pengindeksan mesin pencari dilarang.
Contoh 1:
Agen pengguna:*
Melarang:/
Menunjukkan bahwa akses indeks mesin pencari apa pun dilarang,
Contoh 2:
Agen pengguna:*
Larang:/seebk
Menandakan bahwa indeks mesin pencari dilarang mengakses direktori seebk.
Contoh 3:
Agen pengguna: baiduspider
Agen pengguna:*
Melarang:/
Menunjukkan bahwa hanya akses indeks bertumpuk laba-laba Baidu yang diperbolehkan: Baidu: baiduspider, Google: googlebot, Soso: sosospider, Alexa: ia_archiver, Yahoo: Yahoo Slurp
Contoh 4:
Agen pengguna:*
Larang:.jpg$
Untuk mencegah hotlinking gambar jpg, Anda tidak perlu mengaturnya jika bandwidth Anda mencukupi.
Catatan tambahan: Optimalkan Robots.txt untuk memaksimalkan kekuatan Anda dan menghindari kelemahan Anda . Melakukan pekerjaan dengan baik di Robots.txt akan memudahkan pengoptimalan dan pengembangan situs web dengan lancar.
Ruang pribadi jaringan biner penulis