Peningkatan SP1: Memperbaiki pengenalan otomatis pengkodean halaman web, meningkatkan hashing untuk membuat perayapan laba-laba lebih komprehensif, memperbaiki kesalahan pergudangan dalam keadaan khusus, dll.;
K-PageSearch adalah sistem mesin pencari web profesional yang dikembangkan secara independen oleh Kwindsoft. Sistem ini memiliki analisis cerdas canggih dan teknologi pengambilan data besar-besaran. Intinya terdiri dari empat bagian: sistem pengumpulan multi-utas, sistem analisis cerdas, sistem pengindeksan besar-besaran, dan sistem pengumpulan penuh. sistem pengambilan teks. Sistem ini mengadopsi arsitektur sistem mesin pencari tingkat profesional dan mendukung pengambilan teks lengkap tingkat milidetik dari data dalam jumlah besar. Ini adalah produk pengambilan teks lengkap profesional yang dirancang terutama untuk mesin pencari industri besar dan menengah, mesin pencari lokal, mesin pencari informasi khusus, dan bidang aplikasi lainnya, memberikan solusi ideal kepada pengguna untuk aplikasi pengambilan teks lengkap dari data yang sangat besar.
Peningkatan utama dari versi V2.1: menggunakan teknologi .NET untuk mengembangkan program front-end Web, menggunakan pengkodean halaman web UTF-8, sistem pengindeksan baru, dan membuka kode sumber alat manajemen;
Fitur fungsional: Laba-laba jaringan multi-utas, akuisisi arah halaman web, pengkodean halaman web multi-bahasa, pengenalan otomatis, tabel hash, deduplikasi halaman web, ekstraksi teks halaman web cerdas, segmentasi kata Cina cerdas berbasis leksikon, segmentasi kata Cina, leksikon manajemen, data besar-besaran, pengambilan teks lengkap tingkat milidetik, teknologi caching, cuplikan halaman web, penawaran penelusuran lanjutan Peringkat laba-laba web
Laba-laba web menggunakan multi-utas untuk mengumpulkan halaman web secara bersamaan, dikombinasikan dengan mekanisme pengumpulan yang efisien dan penerapan strategis, untuk memaksimalkan efisiensi pengumpulan halaman web. Mendukung pengumpulan halaman web yang ditargetkan, teknologi utama bagi mesin pencari vertikal untuk meningkatkan kualitas dan relevansi data. Pengguna dapat menyesuaikan aturan pengumpulan untuk mengumpulkan halaman web tertentu. Mendukung pengumpulan beberapa jenis halaman web dinamis dan statis, dan identifikasi otomatis pengkodean halaman web multi-bahasa. Ini menggunakan teknologi deduplikasi halaman web tabel hash, yang memiliki karakteristik kinerja tinggi dan penggunaan sistem rendah, memungkinkan laba-laba web berjalan secara efisien dan stabil. Mendukung pengumpulan situs web tunggal atau batch, pengumpulan otomatis, dan fungsi pembaruan otomatis.
Ekstraksi teks
Teknologi ekstraksi teks halaman web yang cerdas, fungsinya untuk mengekstrak konten tema sentral halaman web dan menyaring informasi yang tidak terkait dengan tema halaman web (iklan, navigasi, hak cipta, dan informasi konten isi halaman non-web lainnya). Teknologi ini secara efektif meningkatkan kualitas relevansi pengumpulan dan pengambilan informasi halaman web, identifikasi otomatis cerdas, ekstraksi teks halaman web yang akurat, dan tingkat akurasi lebih dari 95%.
Segmentasi kata Cina
Teknologi segmentasi kata berbahasa Mandarin yang cerdas berdasarkan tesaurus mendukung berbagai teknologi analisis cerdas seperti segmentasi bahasa Mandarin dan Inggris, konversi font sederhana dan tradisional berbahasa Mandarin, konversi lebar penuh dan setengah lebar, serta pengenalan nama berbahasa Mandarin. Pengguna dapat memperluas dan memelihara perpustakaan kosakata sesuai dengan kebutuhan aplikasi mereka untuk mencapai efek segmentasi kata terbaik.
Pencarian teks lengkap
Ini mengadopsi arsitektur sistem pengindeksan data besar-besaran dan teknologi algoritma pengambilan teks lengkap yang canggih, dikombinasikan dengan strategi optimasi pengambilan yang efisien, untuk mendukung kecepatan pengambilan data besar-besaran tingkat milidetik dan pengambilan bersamaan multi-pengguna. Pencarian lanjutan mendukung metode pencarian yang disesuaikan untuk memenuhi berbagai kebutuhan pencarian pengguna. Mengadopsi strategi teknologi caching yang efisien untuk meningkatkan stabilitas sistem dan kapasitas beban, mengurangi beban sistem, dan data cache diperbarui secara otomatis sesuai dengan kondisi tertentu.
Objek yang berlaku
Cocok untuk grup situs web internal atau grup situs web Internet seperti perusahaan, lembaga pemerintah, sekolah, dll. untuk membuat mesin pencari web;
Cocok untuk grup situs web di berbagai industri dan bidang untuk membangun mesin pencari web industri;
Cocok untuk grup situs web lokal seperti provinsi, kota, dan kabupaten untuk membangun mesin pencari web lokal;
Memperluas