Com o rápido desenvolvimento da ciência e tecnologia de redes, as pessoas estão se tornando cada vez mais dependentes dos mecanismos de busca de redes. Especialmente no século 21, quando os recursos de rede são abundantes e a demanda por informações de rede está aumentando, a tecnologia de busca ocupa uma parte muito importante do mundo. Internet. Hoje em dia, as pessoas costumam usar motores de busca para pesquisar diversas informações, como materiais multimídia, informações mais recentes e mapas.
Primeiro, os princípios básicos dos motores de busca
Um mecanismo de pesquisa é um sistema que pode obter informações da página de um site, construir um banco de dados e fornecer consultas.
1.1 Estrutura dos motores de busca
A coleta de páginas da Web consiste em rastrear páginas da Web por meio de web spiders e rastrear outras páginas da Web ao longo dos links em cada página da Web. Eventualmente, muitas páginas da Web podem ser rastreadas e essas páginas da Web podem ser compactadas e armazenadas na base de conhecimento. Os programas Web Spider rastrearão continuamente toda a web para garantir a atualidade e a eficácia das informações.
O pré-processamento consiste em realizar a análise de links nas páginas da web coletadas, calcular a importância da página da web e extrair palavras-chave e estabelecer um banco de dados de índice. A arquitetura desse banco de dados deve ser propícia à pesquisa e as informações contidas devem ser tão abrangentes quanto possível.
Serviço refere-se à prestação de serviços aos usuários. Quando o usuário insere uma palavra-chave, as informações relevantes são rapidamente encontradas no banco de dados de índice de acordo com a palavra-chave e retornadas ao usuário.
1.2 Classificação dos motores de busca
Os mecanismos de pesquisa podem ser divididos em três categorias: mecanismos de pesquisa de texto completo, mecanismos de pesquisa de diretório e mecanismos de metabusca.
Os mecanismos de pesquisa de texto completo usam web spiders para rastrear várias páginas da web, extrair suas informações e armazená-las em um banco de dados. Quando o usuário os utiliza, eles correspondem às palavras-chave inseridas pelo usuário e retornam as informações ao usuário. Este é o mecanismo de busca mais comumente usado pelo Google e pelo Baidu.
Os mecanismos de pesquisa de diretório classificam os recursos pesquisados de uma determinada maneira e, eventualmente, criam um grande sistema de diretório. Quando os usuários consultam, eles podem abrir e navegar no diretório camada por camada e, finalmente, encontrar as informações que desejam. não é um mecanismo de pesquisa real. O Yahoo e o Sina que usamos se enquadram nesta categoria.
O mecanismo de metabusca é um mecanismo que chama outros mecanismos de busca. Ele pode abranger mais recursos e fornecer serviços mais abrangentes. Os mais comumente usados são Dogpile, Vivisimo e busca de estrelas domésticas.
Os três mecanismos de pesquisa diferentes acima podem ser usados em situações diferentes e têm suas próprias vantagens e desvantagens. Os mecanismos de pesquisa de texto completo são geralmente usados para pesquisas abrangentes. Suas vantagens são grandes quantidades de informações, atualizações oportunas e nenhuma necessidade de intervenção manual. Suas desvantagens são o processamento de grandes quantidades de informações e a dificuldade de filtragem. Os motores de busca de diretórios são principalmente orientados para sites, fornecendo serviços de navegação em diretórios e serviços de recuperação direta. Sua vantagem é que a intervenção manual é útil para melhorar a precisão da busca de informações, mas suas desvantagens são que requer intervenção manual, tem altos custos de manutenção e é lenta. atualizações e uma pequena quantidade de informações. Como os mecanismos de metapesquisa podem consultar vários outros mecanismos de pesquisa, eles são particularmente adequados para situações que exigem uma alta taxa de recuperação. No entanto, atualmente, os métodos ou regras específicas para estabelecer bancos de dados de índice e realizar a recuperação de consultas são diferentes entre os diferentes mecanismos de pesquisa. o efeito de recuperação de ferramentas de meta-pesquisa.
Em segundo lugar, várias tecnologias importantes para implementação de mecanismos de pesquisa
2.1 Aranhas
Os web spiders podem ser implementados das seguintes maneiras:
(1) Baseado primeiro na largura. Um algoritmo baseado em largura acessa os links na ordem em que são encontrados. É a estratégia mais simples de todos os web spiders.
(2) Baseado primeiro na profundidade. Com base na ideia de prioridade de profundidade, a similaridade entre a página web e o tema de pesquisa é calculada de acordo com as condições selecionadas, e o link com maior similaridade é selecionado para pesquisa. No processo de cálculo de similaridade, o cosseno geralmente é. usado para cálculo.
(3) Com base nas classificações da página. Com base na classificação da página web, a classificação da página web é usada em combinação com o conteúdo para avaliar a coleção de documentos pesquisados, e os resultados calculados são usados para selecionar o link com a classificação mais alta como o próximo objeto de pesquisa.
(4) InfoSpider. O InfoSpider usa tabelas de palavras-chave evoluídas e métodos de rede neural para calcular a similaridade de páginas da web relacionadas ao tema e determina o próximo objeto a ser pesquisado com base nos resultados do cálculo. O custo gasto na obtenção do documento modifica a energia do agente e determina se o custo gasto na obtenção do documento modifica a energia do agente. para desfazer, regenerar ou sobreviver ao agente com base em seu nível de energia.
2.2 Julgamento da importância das páginas web
Existem dois métodos principais para avaliar a importância das páginas da web: um é baseado em links
método, e o outro é baseado na similaridade.
Deve haver algum relacionamento de mapeamento confiável entre as informações do link e o objeto vinculado com base no cálculo baseado no método de link. Os itens a seguir são frequentemente usados durante a aplicação:
(1) In-degree: o número de páginas da web contendo alvos de links apontando para esta página da web;
(2) Out-degree: o número de links de páginas da web vinculados a esta página da web;
(3) Page Rank: refere-se à possibilidade de um usuário visitar a página a qualquer momento.
Este método é amplamente utilizado e muito eficaz.
Para cálculos baseados em similaridade, o modelo de espaço vetorial é geralmente usado para converter a string de consulta e o texto em vetores e, em seguida, a similaridade entre o texto e a string de consulta é avaliada.
2.3 Estabelecimento do sistema de hardware do mecanismo de busca
O sistema de hardware do mecanismo de busca é a espinha dorsal de todo o sistema. Para fornecer velocidade de consulta mais rápida, o sistema de hardware geralmente adota uma estrutura distribuída. Os servidores do Google são distribuídos em todo o mundo, e a tecnologia paralela também é usada para acelerar o processo. velocidade de execução. Além disso, o design de hardware do banco de dados de índice também é muito importante e fundamental para melhorar a velocidade de acesso aos dados.
Terceiro, tendência de contra-desenvolvimento do mecanismo de pesquisa
Os motores de busca do futuro terão as seguintes características:
(1) Capaz de coletar quase todas as informações na Internet;
(2) Algumas informações ilegais podem ser bloqueadas;
(3) Melhoria da taxa de recall e taxa de precisão
(4) Não só pode reconhecer termos de pesquisa de texto, mas também imagens, áudios, vídeos, etc.;
(5) Atualizações de informações mais rápidas;
(6) Introdução conveniente à consulta entre bancos de dados;
(7) A interface interativa é humanizada e personalizada;
(8) A pesquisa inteligente pode ser realizada.
(9) A pesquisa móvel fará um grande progresso.
Quarto, resumo
Este artigo explica detalhadamente o motor de busca, analisa a implementação das suas principais tecnologias e propõe tendências futuras de desenvolvimento. Com o desenvolvimento da tecnologia e a melhoria das necessidades das pessoas, os motores de busca tornar-se-ão cada vez mais inteligentes, tornando-se cada vez mais eficientes. e prático.