Dengan pesatnya perkembangan ilmu pengetahuan dan teknologi jaringan, masyarakat menjadi semakin bergantung pada mesin pencari jaringan. Terutama di abad ke-21 ketika sumber daya jaringan melimpah dan permintaan akan informasi jaringan semakin meningkat, teknologi pencarian menempati bagian yang sangat penting. Internet. Saat ini masyarakat sering menggunakan mesin pencari untuk mencari berbagai informasi seperti materi multimedia, informasi terkini, dan peta.
Pertama, prinsip dasar mesin pencari
Mesin pencari adalah sistem yang dapat memperoleh informasi halaman web situs web, membangun database, dan menyediakan pertanyaan.
1.1 Struktur mesin pencari
Pengumpulan halaman web adalah merayapi halaman web melalui laba-laba web, dan merayapi halaman web lain di sepanjang link di setiap halaman web. Akhirnya, banyak halaman web dapat dirayapi, dan halaman web ini dapat dikompresi dan disimpan dalam basis pengetahuan. Program laba-laba web akan terus merayapi seluruh web untuk memastikan ketepatan waktu dan efektivitas informasi.
Pra-pemrosesan adalah melakukan analisis tautan pada halaman web yang dikumpulkan, menghitung pentingnya halaman web dan mengekstrak kata kunci, serta membuat basis data indeks. Arsitektur basis data ini harus kondusif untuk pencarian, dan informasi yang terkandung harus sekomprehensif mungkin.
Layanan mengacu pada penyediaan layanan kepada pengguna. Ketika pengguna memasukkan kata kunci, informasi yang relevan dengan cepat ditemukan dalam database indeks sesuai dengan kata kunci dan dikembalikan ke pengguna.
1.2 Klasifikasi mesin pencari
Mesin pencari dapat dibagi menjadi tiga kategori: mesin pencari teks lengkap, mesin pencari direktori, dan mesin pencari meta.
Mesin pencari teks lengkap menggunakan laba-laba web untuk merayapi berbagai halaman web, mengekstrak informasinya dan menyimpannya dalam database, ketika pengguna menggunakannya, mereka mencocokkan kata kunci yang dimasukkan oleh pengguna dan mengembalikan informasi tersebut kepada pengguna. Ini adalah mesin pencari yang paling umum digunakan Google dan Baidu termasuk dalam kategori ini.
Mesin pencari direktori mengklasifikasikan sumber daya yang dicari dengan cara tertentu, dan pada akhirnya membangun sistem direktori yang besar. Saat pengguna melakukan kueri, mereka dapat membuka dan menelusuri direktori lapis demi lapis, dan akhirnya menemukan informasi yang mereka inginkan bukan mesin pencari sungguhan. Yahoo dan Sina yang kami gunakan termasuk dalam kategori ini.
Mesin metasearch adalah mesin yang memanggil mesin pencari lainnya. Ini dapat mencakup lebih banyak sumber daya dan memberikan layanan yang lebih komprehensif. Yang paling umum digunakan adalah Dogpile, Vivisimo dan pencarian bintang domestik.
Ketiga mesin pencari berbeda di atas dapat digunakan dalam situasi berbeda dan memiliki kelebihan dan kekurangan masing-masing. Mesin pencari teks lengkap umumnya digunakan untuk pencarian yang komprehensif. Kelebihannya adalah informasi dalam jumlah besar, pembaruan tepat waktu, dan tidak memerlukan intervensi manual. Mesin pencari direktori sebagian besar berorientasi pada situs web, menyediakan layanan penjelajahan direktori dan layanan pengambilan langsung. Keunggulannya adalah intervensi manual berguna untuk meningkatkan keakuratan pencarian informasi, namun kelemahannya adalah memerlukan intervensi manual, memiliki biaya pemeliharaan yang tinggi, lambat. pembaruan, dan sejumlah kecil informasi. Karena mesin metasearch dapat menanyakan beberapa mesin pencari lainnya, mesin tersebut sangat cocok untuk situasi yang memerlukan tingkat ingatan yang tinggi. Namun, saat ini, metode atau aturan khusus untuk membuat database indeks dan melakukan pengambilan kueri berbeda di antara mesin pencari yang berbeda efek pengambilan alat meta-pencarian.
Kedua, beberapa teknologi utama untuk implementasi mesin pencari
2.1 Laba-laba
Laba-laba web dapat diimplementasikan dengan cara berikut:
(1) Berdasarkan luasnya terlebih dahulu. Algoritme berbasis luasnya mengakses tautan sesuai urutan kemunculannya. Ini adalah strategi paling sederhana dari semua laba-laba web.
(2) Berdasarkan kedalamannya terlebih dahulu. Berdasarkan gagasan prioritas kedalaman, kesamaan antara halaman web dan topik pencarian dihitung sesuai dengan kondisi yang dipilih, dan tautan dengan kesamaan tertinggi dipilih untuk pencarian digunakan untuk perhitungan.
(3) Berdasarkan peringkat halaman. Berdasarkan peringkat halaman web, peringkat halaman web digunakan bersama dengan konten untuk menilai koleksi dokumen yang dicari, dan hasil perhitungan digunakan untuk memilih tautan dengan peringkat tertinggi sebagai objek pencarian berikutnya.
(4) Laba-Laba Info. InfoSpider menggunakan tabel kata kunci yang berevolusi dan metode jaringan saraf untuk menghitung kesamaan halaman web yang terkait dengan topik, dan menentukan objek berikutnya yang akan dicari berdasarkan hasil perhitungan. Biaya yang dikeluarkan untuk mendapatkan dokumen mengubah energi agen, dan menentukan apakah untuk membatalkan, meregenerasi, atau bertahan agen berdasarkan tingkat energinya.
2.2 Penilaian pentingnya halaman web
Ada dua metode utama untuk menilai pentingnya halaman web, satu berdasarkan link
metode, dan yang lainnya didasarkan pada kesamaan.
Harus ada hubungan pemetaan yang kredibel antara informasi tautan dan objek yang ditautkan berdasarkan perhitungan berdasarkan metode tautan. Berikut ini yang sering digunakan selama aplikasi:
(1) Derajat: jumlah halaman web yang berisi target tautan yang mengarah ke halaman web ini;
(2) Derajat keluar: jumlah link halaman web yang ditautkan dari halaman web ini;
(3) Page Rank: mengacu pada kemungkinan pengguna mengunjungi halaman web kapan saja.
Cara ini banyak digunakan dan sangat efektif.
Untuk penghitungan berdasarkan kesamaan, model ruang vektor umumnya digunakan untuk mengubah string kueri dan teks menjadi vektor, lalu kemiripan antara teks dan string kueri dievaluasi.
2.3 Pembentukan sistem perangkat keras mesin pencari
Sistem perangkat keras mesin pencari adalah tulang punggung keseluruhan sistem. Untuk memberikan kecepatan kueri yang lebih cepat, sistem perangkat keras umumnya mengadopsi struktur terdistribusi. Server Google didistribusikan di seluruh dunia, dan teknologi paralel juga digunakan untuk mempercepat kecepatan eksekusi. Selain itu, desain perangkat keras dari database indeks juga sangat penting dan kritis untuk meningkatkan kecepatan akses data.
Ketiga, tren kontra-perkembangan mesin pencari
Mesin pencari masa depan akan memiliki ciri-ciri sebagai berikut:
(1) Mampu mengumpulkan hampir seluruh informasi di Internet;
(2) Beberapa informasi ilegal dapat diblokir;
(3) Peningkatan tingkat recall dan tingkat presisi
(4) Tidak hanya dapat mengenali istilah pencarian teks, tetapi juga dapat mengenali gambar, audio, video, dll.;
(5) Pembaruan informasi lebih cepat;
(6) Pengenalan yang mudah untuk kueri lintas basis data;
(7) Antarmuka interaktif bersifat manusiawi dan dipersonalisasi;
(8) Pencarian cerdas dapat diwujudkan.
(9) Pencarian seluler akan mengalami kemajuan besar.
Keempat, ringkasan
Artikel ini menjelaskan mesin pencari secara rinci, menganalisis penerapan teknologi utamanya, dan mengusulkan tren perkembangan di masa depan. Dengan perkembangan teknologi dan peningkatan kebutuhan masyarakat, mesin pencari akan menjadi semakin cerdas, menjadi semakin efisien dan praktis.