Mejoras del SP1: corregir el reconocimiento automático de la codificación de la página web, mejorar el hash para que el rastreo de arañas sea más completo, corregir errores de almacenamiento en circunstancias especiales, etc.;
K-PageSearch es un sistema de motor de búsqueda web profesional desarrollado independientemente por Kwindsoft. Tiene análisis inteligente avanzado y tecnología de recuperación masiva de datos. Su núcleo consta de cuatro partes: sistema de recopilación de subprocesos múltiples, sistema de análisis inteligente, sistema de indexación masiva y sistema completo. Sistema de recuperación de texto. El sistema adopta una arquitectura de sistema de motor de búsqueda de nivel profesional y admite la recuperación de datos masivos de texto completo a nivel de milisegundos. Es un producto profesional de recuperación de texto completo diseñado principalmente para motores de búsqueda de industrias grandes y medianas, motores de búsqueda locales, motores de búsqueda de información especializada y otros campos de aplicación, brindando a los usuarios soluciones ideales para aplicaciones de recuperación de texto completo de datos masivos.
Principales mejoras de la versión V2.1: uso de tecnología .NET para desarrollar programas front-end web, uso de codificación de páginas web UTF-8, un nuevo sistema de indexación y apertura del código fuente de las herramientas de administración;
Características funcionales: araña de red multiproceso, adquisición direccional de páginas web, codificación de páginas web en varios idiomas, reconocimiento automático, tabla hash, deduplicación de páginas web, extracción inteligente de texto de páginas web, segmentación inteligente de palabras chinas basada en léxico, segmentación de palabras chinas, léxico gestión, datos masivos, recuperación de texto completo a nivel de milisegundos, tecnología de almacenamiento en caché, instantáneas de páginas web, ofertas de búsqueda avanzada Clasificación de arañas web
Las arañas web utilizan subprocesos múltiples para recopilar páginas web simultáneamente, combinados con mecanismos de recopilación eficientes y una implementación estratégica, para maximizar la eficiencia de la recopilación de páginas web. Admite la recopilación dirigida de páginas web, una tecnología clave para que los motores de búsqueda verticales mejoren la calidad y relevancia de los datos. Los usuarios pueden personalizar las reglas de recopilación para recopilar páginas web específicas. Admite la recopilación de múltiples tipos de páginas web dinámicas y estáticas y la identificación automática de codificaciones de páginas web en varios idiomas. Utiliza tecnología de deduplicación de páginas web de tabla hash, que tiene las características de alto rendimiento y bajo uso del sistema, lo que permite que las arañas web se ejecuten de manera eficiente y estable. Admite funciones de recopilación de sitios web individuales o por lotes, recopilación automática y actualización automática.
Extracción de texto
Tecnología inteligente de extracción de texto de páginas web, su función es extraer el contenido del tema central de una página web y filtrar información no relacionada con el tema de la página web (publicidad, navegación, derechos de autor y otra información del contenido del cuerpo de la página no web). Esta tecnología mejora efectivamente la calidad de la recopilación y recuperación de información de la página web, la identificación automática inteligente, la extracción precisa del texto de la página web y una tasa de precisión de más del 95%.
Segmentación de palabras chinas
La tecnología inteligente de segmentación de palabras en chino basada en tesauro admite múltiples tecnologías de análisis inteligente, como la segmentación en chino e inglés, la conversión de fuentes en chino simplificado y tradicional, la conversión de ancho completo y medio ancho y el reconocimiento de nombres en chino. Los usuarios pueden ampliar y mantener la biblioteca de vocabulario según las necesidades de su propia aplicación para lograr el mejor efecto de segmentación de palabras.
Búsqueda de texto completo
Adopta una arquitectura de sistema de indexación de datos masivos y una tecnología avanzada de algoritmos de recuperación de texto completo, combinados con estrategias eficientes de optimización de la recuperación, para admitir velocidades de recuperación de datos masivos a nivel de milisegundos y la recuperación simultánea de múltiples usuarios. La búsqueda avanzada admite métodos de búsqueda personalizados para satisfacer las diferentes necesidades de búsqueda de los usuarios. Adopte estrategias eficientes de tecnología de almacenamiento en caché para mejorar la estabilidad del sistema y la capacidad de carga, reducir la carga del sistema y los datos de la caché se actualizan automáticamente de acuerdo con condiciones específicas.
Objetos aplicables
Adecuado para grupos de sitios web internos o grupos de sitios web de Internet, como empresas, agencias gubernamentales, escuelas, etc., para establecer motores de búsqueda web;
Adecuado para grupos de sitios web de diversas industrias y campos para establecer motores de búsqueda web industriales;
Adecuado para que grupos de sitios web locales, como provincias, ciudades y distritos, establezcan motores de búsqueda web locales;
Expandir