SP1 の改善点: Web ページのエンコーディングの自動認識を修正し、スパイダー クローリングをより包括的にするためにハッシュを改善し、特殊な状況でのウェアハウス エラーを修正しました。 K-PageSearch は、Kwindsoft が独自に開発した専門的な Web 検索エンジン システムであり、高度なインテリジェントな分析と大規模なデータ検索テクノロジーを備えています。そのコアは、マルチスレッド収集システム、インテリジェントな分析システム、大規模なインデックス作成システム、およびフル-テキスト検索システム。プロレベルの検索エンジンシステムアーキテクチャを採用し、ミリ秒レベルの大量データの全文検索をサポートします。これは、主に大規模および中規模の業界検索エンジン、ローカル検索エンジン、専門情報検索エンジン、およびその他のアプリケーション分野向けに設計されたプロフェッショナルな全文検索製品であり、大量データの全文検索アプリケーションに最適なソリューションをユーザーに提供します。 V2.1 バージョンの主な改善点: .NET テクノロジを使用した Web フロントエンド プログラムの開発、UTF-8 Web ページ エンコーディングの使用、新しいインデックス システム、および管理ツールのソース コードのオープン。 機能機能: マルチスレッドネットワークスパイダー、Web ページ方向取得、多言語 Web ページコーディング、自動認識、ハッシュテーブル、Web ページ重複排除、インテリジェント Web ページテキスト抽出、辞書ベースのインテリジェント中国語単語セグメンテーション、中国語単語セグメンテーション、辞書管理、大量のデータ、ミリ秒レベルの全文検索、キャッシュ技術、Web ページのスナップショット、高度な検索入札 ウェブ スパイダーのランキング
Web スパイダーは、効率的な収集メカニズムと戦略的展開と組み合わせて、マルチスレッドを使用して Web ページを同時に収集し、Web ページ収集の効率を最大化します。データの品質と関連性を向上させるための垂直検索エンジンの重要なテクノロジーである Web ページのターゲットを絞った収集をサポートし、ユーザーは収集ルールをカスタマイズして特定の Web ページを収集できます。複数の動的および静的 Web ページ タイプの収集と、多言語 Web ページ エンコーディングの自動識別をサポートします。ハッシュ テーブル Web ページ重複排除テクノロジーを使用しており、高性能でシステム使用率が低いという特徴があり、Web スパイダーを効率的かつ安定して実行できます。単一またはバッチの Web サイト収集、自動収集、自動更新機能をサポートします。
テキスト抽出
インテリジェントな Web ページ テキスト抽出テクノロジ。その機能は、Web ページの中心的なテーマ コンテンツを抽出し、Web ページのテーマに関係のない情報 (広告、ナビゲーション、著作権、その他の Web ページ本体以外のコンテンツ情報) をフィルタリングすることです。このテクノロジーは、Web ページ情報の収集と検索の関連性、インテリジェントな自動識別、正確な Web ページ テキスト抽出、および 95% 以上の精度率の品質を効果的に向上させます。
企業、政府機関、学校などの内部 Web サイト グループまたはインターネット Web サイト グループが Web 検索エンジンを確立するのに適しています。 さまざまな業界や分野の Web サイト グループが業界 Web 検索エンジンを確立するのに適しています。 地方、市、地区などのローカル Web サイト グループがローカル Web 検索エンジンを確立するのに適しています。