Améliorations du SP1 : correction de la reconnaissance automatique de l'encodage des pages Web, amélioration du hachage pour rendre l'exploration des araignées plus complète, correction des erreurs d'entreposage dans des circonstances particulières, etc. ;
K-PageSearch est un système de moteur de recherche Web professionnel développé indépendamment par Kwindsoft. Il dispose d'une technologie avancée d'analyse intelligente et de récupération de données massives. Son noyau se compose de quatre parties : un système de collecte multithread, un système d'analyse intelligent, un système d'indexation massive et un système d'indexation complet. système de récupération de texte. Le système adopte une architecture de moteur de recherche de niveau professionnel et prend en charge la récupération de texte intégral au niveau de la milliseconde de données massives. Il s'agit d'un produit professionnel de récupération de texte intégral conçu principalement pour les moteurs de recherche industriels de grande et moyenne taille, les moteurs de recherche locaux, les moteurs de recherche d'informations spécialisés et d'autres domaines d'application, offrant aux utilisateurs des solutions idéales pour les applications de récupération de texte intégral de données massives.
Principales améliorations de la version V2.1 : utilisation de la technologie .NET pour développer des programmes front-end Web, utilisation de l'encodage de pages Web UTF-8, d'un nouveau système d'indexation et ouverture du code source des outils de gestion ;
Caractéristiques fonctionnelles : araignée de réseau multithread, acquisition directionnelle de page Web, codage de page Web multilingue, reconnaissance automatique, table de hachage, déduplication de page Web, extraction intelligente de texte de page Web, segmentation intelligente de mots chinois basée sur le lexique, segmentation de mots chinois, lexique gestion, données massives, récupération de texte intégral au niveau de la milliseconde, technologie de mise en cache, instantané de page Web, enchères de recherche avancées
Les robots Web utilisent plusieurs threads pour collecter simultanément des pages Web, combinés à des mécanismes de collecte efficaces et à un déploiement stratégique, pour maximiser l'efficacité de la collecte de pages Web. Prend en charge la collecte ciblée de pages Web, une technologie clé pour les moteurs de recherche verticaux afin d'améliorer la qualité et la pertinence des données. Les utilisateurs peuvent personnaliser les règles de collecte pour collecter des pages Web spécifiques. Prend en charge la collection de plusieurs types de pages Web dynamiques et statiques et l'identification automatique des encodages de pages Web multilingues. Il utilise la technologie de déduplication de pages Web par table de hachage, qui présente les caractéristiques de hautes performances et de faible utilisation du système, permettant aux araignées Web de fonctionner de manière efficace et stable. Prend en charge les fonctions de collecte de sites Web uniques ou par lots, de collecte automatique et de mise à jour automatique.
Extraction de texte
Technologie intelligente d'extraction de texte de page Web, sa fonction est d'extraire le contenu du thème central d'une page Web et de filtrer les informations sans rapport avec le thème de la page Web (publicité, navigation, droits d'auteur et autres informations non liées au contenu du corps de la page Web). Cette technologie améliore efficacement la qualité de la collecte et de la pertinence des informations sur les pages Web, l'identification automatique intelligente, l'extraction précise du texte des pages Web et un taux de précision supérieur à 95 %.
Segmentation des mots chinois
La technologie intelligente de segmentation de mots chinois basée sur un thésaurus prend en charge plusieurs technologies d'analyse intelligente telles que la segmentation en chinois et en anglais, la conversion de polices chinoises simplifiées et traditionnelles, la conversion pleine largeur et demi-largeur et la reconnaissance de noms chinois. Les utilisateurs peuvent étendre et maintenir la bibliothèque de vocabulaire en fonction des besoins de leur propre application pour obtenir le meilleur effet de segmentation des mots.
Recherche en texte intégral
Il adopte une architecture de système d'indexation massive de données et une technologie avancée d'algorithme de récupération de texte intégral, combinées à des stratégies d'optimisation de récupération efficaces, pour prendre en charge des vitesses de récupération de données massives de l'ordre de la milliseconde et une récupération simultanée multi-utilisateurs. La recherche avancée prend en charge les méthodes de recherche personnalisées pour répondre aux différents besoins de recherche des utilisateurs. Adoptez des stratégies technologiques de mise en cache efficaces pour améliorer la stabilité du système et la capacité de charge, réduire la charge du système et les données du cache sont automatiquement mises à jour en fonction de conditions spécifiques.
Objets applicables
Convient aux groupes de sites Web internes ou aux groupes de sites Web Internet tels que les entreprises, les agences gouvernementales, les écoles, etc. pour établir des moteurs de recherche Web ;
Convient aux groupes de sites Web dans divers secteurs et domaines pour établir des moteurs de recherche Web industriels ;
Convient aux groupes de sites Web locaux tels que les provinces, les villes et les districts pour établir des moteurs de recherche Web locaux ;
Développer