Internet semakin sejuk, dan popularitas WWW berada pada puncaknya. Penerbitan informasi perusahaan dan pelaksanaan e-commerce di Internet telah berkembang dari mode ke mode. Sebagai seorang Web Master, Anda mungkin mengetahui HTML, Javascript, Java, dan ActiveX dengan baik, namun tahukah Anda apa itu Robot Web? Tahukah Anda apa hubungan Web Robot dengan homepage yang Anda desain?
Pengembara di Internet --- Robot Web
Kadang-kadang Anda akan menemukan bahwa konten halaman beranda Anda terindeks di mesin pencari, meskipun Anda belum pernah berhubungan dengan mereka. Faktanya, inilah yang dilakukan Robot Web. Robot Web sebenarnya adalah program yang dapat melintasi struktur hypertext dari sejumlah besar URL Internet dan secara rekursif mengambil semua konten situs web. Program-program ini kadang-kadang disebut "spider", "Web Wanderers", "web worm" atau Web crawler. Beberapa situs mesin pencari (Search Engine) ternama di Internet mempunyai program Robot Web khusus untuk melengkapi pengumpulan informasi, seperti Lycos, Webcrawler, Altavista, dll, serta situs mesin pencari China seperti Polaris, NetEase, GOYOYO, dll.
Robot Web seperti tamu tak diundang. Entah Anda peduli atau tidak, ia akan setia pada tanggung jawab tuannya, bekerja keras dan tanpa lelah di World Wide Web. Tentu saja, ia juga akan mengunjungi beranda Anda dan mengambil kontennya beranda dan menghasilkan format rekaman yang diperlukan. Mungkin Anda ingin beberapa konten halaman beranda diketahui dunia, namun beberapa konten tidak ingin Anda lihat atau indeks. Bisakah Anda membiarkannya "merajalela" di ruang beranda Anda? Bisakah Anda memerintahkan dan mengontrol keberadaan Robot Web? Jawabannya tentu saja ya. Selama Anda membaca sisa artikel ini, Anda bisa menjadi seperti polisi lalu lintas, menyusun rambu-rambu jalan satu per satu, memberi tahu Robot Web cara mencari di beranda, mana yang bisa dicari, dan mana yang tidak bisa diakses.
Faktanya, Robot Web dapat memahami perkataan Anda.
Jangan berpikir bahwa Robot Web berjalan tanpa organisasi dan kendali. Banyak perangkat lunak Robot Web menyediakan dua metode bagi administrator situs web atau produsen konten web untuk membatasi keberadaan Robot Web:
1. Protokol Pengecualian Robot
Administrator situs Internet dapat membuat file berformat khusus di situs untuk menunjukkan bagian mana dari situs yang dapat diakses oleh robots. File ini ditempatkan di direktori root situs, yaitu http://.../robots.txt
2. Tag META Robot
Penulis halaman web dapat menggunakan tag META HTML khusus untuk menunjukkan apakah suatu web halaman dapat diindeks, dianalisis, atau ditautkan.
Metode ini cocok untuk sebagian besar Robot Web. Penerapan metode ini dalam perangkat lunak bergantung pada pengembang Robot, dan tidak ada jaminan efektif untuk Robot mana pun. Jika Anda sangat perlu melindungi konten Anda, Anda harus mempertimbangkan metode perlindungan tambahan seperti menambahkan kata sandi.
Menggunakan Protokol Pengecualian Robot
Ketika Robot mengunjungi situs Web, seperti http://www.sti.net.cn/ , ia terlebih dahulu memeriksa file http://www.sti.net.cn/robots.txt. Jika file ini ada, maka akan dianalisis menurut format catatan ini:
Agen-pengguna: *
Larang: /cgi-bin/
Larang: /tmp/
Larang: /~joe/
untuk menentukan apakah ia harus mengambil file situs. Catatan ini khusus untuk dilihat oleh Robot Web. Pemirsa biasa mungkin tidak akan pernah melihat file ini, jadi jangan tambahkan pernyataan HTML seperti <img src=*> atau "Bagaimana kabarmu" di dalamnya salam palsu lainnya.
Hanya boleh ada satu file "/robots.txt" di satu situs, dan setiap huruf pada nama file harus menggunakan huruf kecil semuanya. Setiap baris "Larang" yang terpisah dalam format rekaman Robot menunjukkan URL yang Anda tidak ingin diakses oleh Robot. Setiap URL harus menempati baris yang terpisah, dan kalimat sakit seperti "Larang: /cgi-bin/ /tmp/" tidak dapat muncul. Pada saat yang sama, baris kosong tidak dapat muncul dalam sebuah record, karena baris kosong merupakan tanda pembagian beberapa record.
Baris Agen-pengguna menunjukkan nama Robot atau agen lainnya. Di baris Agen-pengguna, '*' memiliki arti khusus---semua robot.
Berikut beberapa contoh robot.txt yang
menolak semua robot di seluruh server:
Agen pengguna: *
Disallow: /
Izinkan semua robot mengakses seluruh situs:
Agen pengguna: *
Melarang:
Atau buat file "/robots.txt" kosong.
Bagian dari server dapat diakses oleh semua robot
Agen pengguna: *
Larang: /cgi-bin/
Larang: /tmp/
Larang: /private/
Tolak robot tertentu:
Agen pengguna: BadBot
Larang: /
Hanya izinkan satu robot untuk berkunjung:
Agen pengguna: WebCrawler
Melarang:
Agen pengguna: *
Larang: /
Terakhir kami berikan robots.txt di situs http://www.w3.org/ :
# Untuk digunakan oleh search.w3.org
Agen pengguna: W3Crobot/1
Melarang:
Agen pengguna: *
Disallow: /Member/ # Ini dibatasi hanya untuk Anggota W3C saja
Larang: /member/ # Ini dibatasi hanya untuk Anggota W3C saja
Larang: /team/ # Ini dibatasi hanya untuk Tim W3C saja
Disallow: /TandS/Member # Ini dibatasi hanya untuk Anggota W3C saja
Disallow: /TandS/Team # Ini dibatasi hanya untuk Tim W3C saja
Larang: /Project
Larang: /Systems
Larang: /Web
Larang: /Tim
Menggunakan tag META Robot Tag
META Robot memungkinkan penulis halaman web HTML untuk menunjukkan apakah suatu halaman dapat diindeks atau apakah halaman tersebut dapat digunakan untuk menemukan lebih banyak file yang ditautkan. Saat ini, hanya beberapa robot yang mengimplementasikan fitur ini.
Format tag META Robot adalah:
<META NAME="ROBOT" CONTENT="NOINDEX, NOFOLLOW">
Seperti tag META lainnya, tag ini harus ditempatkan di area HEAD file HTML:
<html>
<kepala>
<meta name="robot" content="noindex,nofollow">
<meta name="description" content="Halaman ini ....">
<judul>...</judul>
</kepala>
<tubuh>
...
Petunjuk META tag robot dipisahkan dengan koma. Petunjuk yang dapat digunakan antara lain [NO]INDEX dan [NO] FOLLOW. Arahan INDEX menunjukkan apakah robot pengindeks dapat mengindeks halaman ini; arahan FOLLOW menunjukkan apakah robot dapat mengikuti tautan ke halaman ini. Standarnya adalah INDEKS dan IKUTI. Misalnya:
<meta name="robot" content="index,follow">
<meta name="robot" content="noindex,follow">
<meta name="robot" content="index,nofollow">
<meta name="robots" content="noindex,nofollow">
Administrator situs Web yang baik harus mempertimbangkan pengelolaan robot sehingga robot dapat melayani beranda mereka sendiri tanpa mengorbankan keamanan halaman web mereka sendiri.