Kwind est un système de moteur de recherche Web professionnel développé indépendamment par Kwindsoft. Il dispose d'une technologie avancée d'analyse intelligente et de récupération de données massives. Son noyau se compose de quatre parties : un système de collecte multithread, un système d'analyse intelligent, un système d'indexation massive et une récupération de texte intégral. système. Le système adopte une architecture de moteur de recherche de niveau professionnel et prend en charge la récupération de texte intégral au niveau de la milliseconde de données massives. Il s'agit d'un produit professionnel de récupération de texte intégral conçu principalement pour les moteurs de recherche industriels de grande et moyenne taille, les moteurs de recherche locaux, les moteurs de recherche d'informations spécialisés et d'autres domaines d'application, offrant aux utilisateurs des solutions idéales pour les applications de récupération de texte intégral de données massives.
Les principales améliorations de la version 2.2SP5 du système de moteur de recherche web Kwind :
Principales améliorations de la version 2.2 : Amélioration des performances de lecture et d'écriture du système d'indexation, augmentant la vitesse d'indexation d'environ 10 fois ;
SP5 : Corriger et améliorer l'algorithme de recherche ;
SP4 : Corriger et optimiser certains programmes de base ;
SP3 : Optimiser le processus de récupération et corriger les erreurs du programme ;
Amélioration SP2 : correction du problème de vitesse de récupération lente causé par des erreurs de composants de récupération, améliorant considérablement la vitesse de récupération ;
Amélioration SP1 : augmentez la longueur de la valeur de hachage, qui peut essentiellement atteindre 100 collections, explorez entièrement la page Web du site et ajoutez la fonction de recherche dans les meilleurs classements ;
Caractéristiques:
Araignée Web multithread
Collecte ciblée de pages Web
Reconnaissance automatique du codage de pages Web multilingues
Déduplication de pages Web par table de hachage
Extraction intelligente de texte de page Web
Segmentation intelligente des mots chinois basée sur un thésaurus
Gestion du dictionnaire de segmentation de mots chinois
Récupération de texte intégral au niveau de la milliseconde de données massives
technologie de mise en cache
Instantané de page Web
Recherche avancée
PPC
toile d'araignée
Les robots Web utilisent plusieurs threads pour collecter simultanément des pages Web, combinés à des mécanismes de collecte efficaces et à un déploiement stratégique, pour maximiser l'efficacité de la collecte de pages Web. Prend en charge la collecte ciblée de pages Web, une technologie clé pour les moteurs de recherche verticaux afin d'améliorer la qualité et la pertinence des données. Les utilisateurs peuvent personnaliser les règles de collecte pour collecter des pages Web spécifiques. Prend en charge la collection de plusieurs types de pages Web dynamiques et statiques et l'identification automatique des encodages de pages Web multilingues. Il utilise la technologie de déduplication de pages Web par table de hachage, qui présente les caractéristiques de hautes performances et de faible utilisation du système, permettant aux araignées Web de fonctionner de manière efficace et stable. Prend en charge les fonctions de collecte de sites Web uniques ou par lots, de collecte automatique et de mise à jour automatique.
Extraction de texte
Technologie intelligente d'extraction de texte de page Web, sa fonction est d'extraire le contenu du thème central d'une page Web et de filtrer les informations sans rapport avec le thème de la page Web (publicité, navigation, droits d'auteur et autres informations non liées au contenu du corps de la page Web). Cette technologie améliore efficacement la qualité de la collecte et de la pertinence des informations sur les pages Web, l'identification automatique intelligente, l'extraction précise du texte des pages Web et un taux de précision supérieur à 95 %.
Segmentation des mots chinois
La technologie intelligente de segmentation de mots chinois basée sur un thésaurus prend en charge plusieurs technologies d'analyse intelligente telles que la segmentation en chinois et en anglais, la conversion de polices chinoises simplifiées et traditionnelles, la conversion pleine largeur et demi-largeur et la reconnaissance de noms chinois. Les utilisateurs peuvent étendre et maintenir la bibliothèque de vocabulaire en fonction des besoins de leur propre application pour obtenir le meilleur effet de segmentation des mots.
Recherche en texte intégral
Il adopte une architecture de système d'indexation massive de données et une technologie avancée d'algorithme de récupération de texte intégral, combinées à des stratégies d'optimisation de récupération efficaces, pour prendre en charge des vitesses de récupération de données massives de l'ordre de la milliseconde et une récupération simultanée multi-utilisateurs. La recherche avancée prend en charge les méthodes de recherche personnalisées pour répondre aux différents besoins de recherche des utilisateurs. Adoptez des stratégies technologiques de mise en cache efficaces pour améliorer la stabilité du système et la capacité de charge, réduire la charge du système et les données du cache sont automatiquement mises à jour en fonction de conditions spécifiques.
Objets applicables
Convient aux groupes de sites Web internes ou aux groupes de sites Web Internet tels que les entreprises, les agences gouvernementales, les écoles, etc. pour établir des moteurs de recherche Web ;
Convient aux groupes de sites Web dans divers secteurs et domaines pour établir des moteurs de recherche Web industriels ;
Convient aux groupes de sites Web locaux tels que les provinces, les villes et les districts pour établir des moteurs de recherche Web locaux ;