K-PageSearch是由Kwindsoft自主研發的專業網頁搜尋引擎系統,擁有先進的智慧分析與大量資料檢索技術,核心由多執行緒擷取系統、智慧分析系統、大量索引系統、全文檢索系統四大大部分構成。本系統採用專業級的搜尋引擎系統架構,支援海量資料毫秒級全文檢索。主要針對大中型產業搜尋引擎、地方搜尋引擎、專類資訊搜尋引擎等應用領域設計的專業全文檢索產品,提供使用者大量資料全文檢索應用的理想解決方案。
K風網頁搜尋V2.2版本主要改進:改進索引系統讀寫效能,提高約10倍的索引速度;
SP5:修正改進搜尋演算法;
SP4:修正、最佳化部分核心程序;
SP3:優化檢索流程、修復程式錯誤;
SP2改進:修正檢索組件錯誤所造成的檢索速度慢問題,大幅提升檢索速度;
SP1改進:增加雜湊值長度,基本上可達到100%採集,全面爬行整站網頁、增加搜尋風雲榜功能;
K風網頁搜尋V2.1版本主要改進:使用.NET技術開發Web前台程式、採用UTF-8網頁編碼、全新索引系統、開放管理工具原始碼;SP1改進:修正自動識別網頁編碼、改進哈希使蜘蛛爬行更全面、修正特殊狀況出現的入庫錯誤等;
K風網頁搜尋功能特點
網路蜘蛛
網路蜘蛛採用多執行緒並發採集網頁,結合高效率的擷取機制與策略部署,最大限度地提高網頁擷取的效率。支援網頁定向採集,垂直搜尋引擎提高資料品質和相關度的關鍵技術,使用者可以自訂採集規則針對特定網頁進行採集。支援多種動態和靜態網頁類型採集,多語言網頁編碼自動識別。採用哈希表網頁去重技術,具有高效能、低系統佔用的特點,使網路蜘蛛高效穩定運作。支援單一或大量網站採集、自動採集、自動更新功能。
正文抽取
智慧網頁正文抽取技術,它的作用是把一個網頁的主題中心內容抽取並把與該網頁主題無關的資訊(廣告、導航、版權等非網頁正文內容資訊)過濾。這項技術有效提升網頁資訊收集的品質與檢索相關度,智慧自動辨識、準確網頁正文抽取,準確率達95%以上。
中文分詞
基於詞庫的智慧中文分詞技術,支援中英文切分、中文簡繁字體轉換、全角半角轉換、中文姓名辨識等多項智慧分析技術。使用者可以根據自己的應用需求擴充和維護詞庫,以達到最佳的分詞效果。
全文檢索
採用海量資料索引系統架構和先進的全文檢索演算法技術,結合高效率的檢索最佳化策略,支援海量資料毫秒檢索速度和多用戶並發檢索。進階搜尋支援自訂檢索方式,滿足使用者不同的檢索需求。採用高效率的快取技術策略提高系統的穩定性和負載能力、減輕系統負擔,快取資料會根據特定的條件自動更新。
適用對象