Kwind é um sistema profissional de mecanismo de pesquisa na web desenvolvido de forma independente pela Kwindsoft. Possui análise inteligente avançada e tecnologia de recuperação massiva de dados. Seu núcleo consiste em quatro partes: sistema de coleta multithread, sistema de análise inteligente, sistema de indexação massiva e recuperação de texto completo. sistema. O sistema adota uma arquitetura de sistema de mecanismo de pesquisa de nível profissional e suporta recuperação de texto completo de dados massivos em nível de milissegundos. É um produto profissional de recuperação de texto completo projetado principalmente para mecanismos de pesquisa industriais de grande e médio porte, mecanismos de pesquisa locais, mecanismos de pesquisa de informações especializadas e outros campos de aplicação, fornecendo aos usuários soluções ideais para aplicações de recuperação de texto completo de dados massivos.
As principais melhorias da versão 2.2SP5 do sistema de busca na web Kwind:
Principais melhorias na versão 2.2: Melhor desempenho de leitura e gravação do sistema de indexação, aumentando a velocidade de indexação em aproximadamente 10 vezes;
SP5: Corrigir e melhorar o algoritmo de busca;
SP4: Corrigir e otimizar alguns programas principais;
SP3: Otimize o processo de recuperação e corrija erros do programa;
Melhoria do SP2: Corrigido o problema de velocidade de recuperação lenta causado por erros de componentes de recuperação, melhorando bastante a velocidade de recuperação;
Melhoria do SP1: Aumente o comprimento do valor do hash, que pode basicamente chegar a 100 coleções, rastreie totalmente a página inteira do site e adicione a função de pesquisar as primeiras classificações;
Características:
Aranha web multithread
Coleção direcionada à página da Web
Reconhecimento automático de codificação de páginas da web em vários idiomas
Desduplicação de página da web de tabela hash
Extração inteligente de texto de páginas da web
Segmentação inteligente de palavras chinesas com base no dicionário de sinônimos
Gerenciamento de dicionário de segmentação de palavras chinesas
Recuperação de texto completo em nível de milissegundo de dados massivos
tecnologia de cache
Instantâneo da página da web
Pesquisa avançada
PPC
teia de aranha
Os web spiders usam multithreads para coletar páginas da web simultaneamente, combinados com mecanismos de coleta eficientes e implantação estratégica, para maximizar a eficiência da coleta de páginas da web. Suporta coleta direcionada de páginas da web, uma tecnologia essencial para mecanismos de pesquisa verticais melhorarem a qualidade e a relevância dos dados. Os usuários podem personalizar regras de coleta para coletar páginas da web específicas. Oferece suporte à coleta de vários tipos de páginas da Web dinâmicas e estáticas e à identificação automática de codificações de páginas da Web em vários idiomas. Ele usa tecnologia de desduplicação de página da web de tabela hash, que possui características de alto desempenho e baixo uso do sistema, permitindo que os web spiders funcionem de forma eficiente e estável. Suporta coleta de sites única ou em lote, coleta automática e funções de atualização automática.
Extração de texto
Tecnologia inteligente de extração de texto de páginas web, sua função é extrair o conteúdo do tema central de uma página web e filtrar informações não relacionadas ao tema da página web (publicidade, navegação, direitos autorais e outras informações de conteúdo não relacionadas ao corpo da página web). Essa tecnologia melhora efetivamente a qualidade da coleta de informações de páginas da web e a relevância da recuperação, identificação automática inteligente, extração precisa de texto de páginas da web e uma taxa de precisão de mais de 95%.
Segmentação de palavras chinesas
A tecnologia inteligente de segmentação de palavras em chinês baseada em thesaurus oferece suporte a várias tecnologias de análise inteligente, como segmentação em chinês e inglês, conversão de fontes chinesas simplificadas e tradicionais, conversão de largura total e meia largura e reconhecimento de nomes chineses. Os usuários podem expandir e manter a biblioteca de vocabulário de acordo com as necessidades de sua própria aplicação para obter o melhor efeito de segmentação de palavras.
Pesquisa de texto completo
Ele adota uma arquitetura de sistema de indexação massiva de dados e tecnologia avançada de algoritmo de recuperação de texto completo, combinada com estratégias eficientes de otimização de recuperação, para suportar velocidades de recuperação em nível de milissegundos de dados massivos e recuperação simultânea multiusuário. A pesquisa avançada oferece suporte a métodos de pesquisa personalizados para atender às diferentes necessidades de pesquisa dos usuários. Adote estratégias eficientes de tecnologia de cache para melhorar a estabilidade do sistema e a capacidade de carga, reduzir a carga do sistema e os dados do cache são atualizados automaticamente de acordo com condições específicas.
Objetos aplicáveis
Adequado para grupos de sites internos ou grupos de sites da Internet, como empresas, agências governamentais, escolas, etc., para estabelecer mecanismos de pesquisa na web;
Adequado para grupos de sites em vários setores e campos para estabelecer mecanismos de pesquisa na web do setor;
Adequado para grupos de sites locais, como províncias, cidades e distritos, para estabelecer mecanismos de pesquisa locais na web;