Melhorias no SP1: Corrija o reconhecimento automático da codificação da página da web, melhore o hashing para tornar o rastreamento de aranha mais abrangente, corrija erros de armazenamento em circunstâncias especiais, etc.;
K-PageSearch é um sistema profissional de mecanismo de pesquisa na web desenvolvido de forma independente pela Kwindsoft. Possui análise inteligente avançada e tecnologia de recuperação massiva de dados. Seu núcleo consiste em quatro partes: sistema de coleta multithread, sistema de análise inteligente, sistema de indexação massiva e completo. sistema de recuperação de texto. O sistema adota uma arquitetura de sistema de mecanismo de pesquisa de nível profissional e suporta recuperação de texto completo de dados massivos em nível de milissegundos. É um produto profissional de recuperação de texto completo projetado principalmente para mecanismos de pesquisa industriais de grande e médio porte, mecanismos de pesquisa locais, mecanismos de pesquisa de informações especializadas e outros campos de aplicação, fornecendo aos usuários soluções ideais para aplicações de recuperação de texto completo de dados massivos.
Principais melhorias da versão V2.1: utilização da tecnologia .NET para desenvolvimento de programas front-end Web, utilização de codificação de páginas web UTF-8, novo sistema de indexação e abertura de código-fonte de ferramentas de gerenciamento;
Recursos funcionais: spider de rede multithread, aquisição direcional de página da web, codificação de página da web em vários idiomas, reconhecimento automático, tabela hash, desduplicação de página da web, extração inteligente de texto de página da web, segmentação inteligente de palavras chinesas baseada em léxico, segmentação de palavras chinesas, léxico gerenciamento, dados massivos, recuperação de texto completo em nível de milissegundos, tecnologia de cache, instantâneo de página da web, lances de pesquisa avançada Classificação de web spiders
Os web spiders usam multithreads para coletar páginas da web simultaneamente, combinados com mecanismos de coleta eficientes e implantação estratégica, para maximizar a eficiência da coleta de páginas da web. Suporta coleta direcionada de páginas da web, uma tecnologia essencial para mecanismos de pesquisa verticais melhorarem a qualidade e a relevância dos dados. Os usuários podem personalizar regras de coleta para coletar páginas da web específicas. Oferece suporte à coleta de vários tipos de páginas da Web dinâmicas e estáticas e à identificação automática de codificações de páginas da Web em vários idiomas. Ele usa tecnologia de desduplicação de página da web de tabela hash, que possui características de alto desempenho e baixo uso do sistema, permitindo que os web spiders funcionem de forma eficiente e estável. Suporta coleta de sites única ou em lote, coleta automática e funções de atualização automática.
Extração de texto
Tecnologia inteligente de extração de texto de páginas web, sua função é extrair o conteúdo do tema central de uma página web e filtrar informações não relacionadas ao tema da página web (publicidade, navegação, direitos autorais e outras informações de conteúdo não relacionadas ao corpo da página web). Essa tecnologia melhora efetivamente a qualidade da coleta de informações de páginas da web e a relevância da recuperação, identificação automática inteligente, extração precisa de texto de páginas da web e uma taxa de precisão de mais de 95%.
Segmentação de palavras chinesas
A tecnologia inteligente de segmentação de palavras em chinês baseada em thesaurus oferece suporte a várias tecnologias de análise inteligente, como segmentação em chinês e inglês, conversão de fontes chinesas simplificadas e tradicionais, conversão de largura total e meia largura e reconhecimento de nomes chineses. Os usuários podem expandir e manter a biblioteca de vocabulário de acordo com as necessidades de sua própria aplicação para obter o melhor efeito de segmentação de palavras.
Pesquisa de texto completo
Ele adota uma arquitetura de sistema de indexação massiva de dados e tecnologia avançada de algoritmo de recuperação de texto completo, combinada com estratégias eficientes de otimização de recuperação, para suportar velocidades de recuperação em nível de milissegundos de dados massivos e recuperação simultânea multiusuário. A pesquisa avançada oferece suporte a métodos de pesquisa personalizados para atender às diferentes necessidades de pesquisa dos usuários. Adote estratégias eficientes de tecnologia de cache para melhorar a estabilidade do sistema e a capacidade de carga, reduzir a carga do sistema e os dados do cache são atualizados automaticamente de acordo com condições específicas.
Objetos aplicáveis
Adequado para grupos de sites internos ou grupos de sites da Internet, como empresas, agências governamentais, escolas, etc., para estabelecer mecanismos de pesquisa na web;
Adequado para grupos de sites em vários setores e campos para estabelecer mecanismos de pesquisa na web do setor;
Adequado para grupos de sites locais, como províncias, cidades e distritos, para estabelecer mecanismos de pesquisa locais na web;
Expandir