-
Embora os motores de busca tenham se desenvolvido muito bem, ainda enfrentam muitos desafios técnicos, incluindo principalmente:
1. O rastreamento de páginas precisa ser rápido e abrangente
Sabemos que a Internet é uma atualização dinâmica de conteúdo. Todos os dias, muitas pessoas publicam novos conteúdos ou atualizam conteúdos antigos na Internet. O mecanismo de busca rastreia as páginas da web que melhor atendem às intenções de pesquisa do usuário a partir dessa enorme quantidade de informações. Diante da enorme quantidade de informações que já existe e da quantidade de informações crescendo geometricamente a cada segundo, a carga de trabalho do mecanismo de busca é muito grande. Demora muito para atualizar o programa do mecanismo de busca, principalmente quando ele acaba de nascer. . O ciclo às vezes pode ser atualizado a cada poucos meses. Imagine quantas atualizações e novas páginas da web serão criadas em alguns meses. Esses resultados de pesquisa tendem a atrasar. Para retornar os melhores resultados de pesquisa, os spiders de pesquisa devem rastrear uma página da web o mais abrangente possível, o que exige que os mecanismos de pesquisa resolvam muitos problemas técnicos. Este é também o principal desafio que enfrenta.
2. Armazenamento em massa de dados
A informação na Internet é enorme, quase inimaginável, e muitas informações novas são geradas todos os dias. Depois que os motores de busca rastreiam essas páginas, elas devem ser armazenadas em um determinado formato de dados, e a estrutura de dados exige razoável, e deve ter. escalabilidade muito alta. A velocidade de gravação de dados deve ser rápida e a velocidade de acesso deve ser rápida o suficiente. Além de armazenar uma grande quantidade de informações na própria página, os mecanismos de pesquisa também devem armazenar relacionamentos de links entre páginas, dados históricos da página e muitas informações de índice para melhor indexar e classificar. A quantidade desses dados é muito grande. Definitivamente, existem muitos desafios técnicos no armazenamento e leitura de dados em grande escala.
3. O processamento do índice deve ser rápido e eficaz e escalonável.
Depois que o mecanismo de pesquisa rastreia e armazena os dados da página, ele também precisa indexar muitas páginas. Por exemplo, cálculo de relações de links entre páginas, índice direto, índice reverso, etc. Por exemplo, existe o cálculo de PR do Google, etc. Os mecanismos de pesquisa devem realizar muito trabalho de indexação para retornar rapidamente os resultados da pesquisa. Além disso, durante o processo de indexação, um grande número de novas páginas é gerado e o programa de processamento de índice do mecanismo de pesquisa precisa. para ser comparado.
4. O processamento de consultas é rápido e preciso
As etapas anteriores são todas executadas no programa em segundo plano do mecanismo de busca, e a fase de consulta é uma etapa onde os usuários podem ver os resultados. Depois de inserirmos palavras-chave na caixa de pesquisa do mecanismo de pesquisa e clicarmos em pesquisar, o mecanismo de pesquisa muitas vezes pode retornar os resultados para nós em menos de um segundo. Embora pareça simples superficialmente, para os mecanismos de pesquisa, é na verdade muito complicado. processo. Existem muitos algoritmos envolvidos. Ele precisa encontrar rapidamente páginas razoáveis em páginas da web que atendam às condições básicas em menos de um segundo e ficar na frente dos mecanismos de pesquisa. Sabemos que o Baidu pode ver até 76 páginas de resultados, e o Google tem um pouco mais, podendo ver até 100 páginas de resultados.
Fonte do artigo: http://www.suptb.cn/ Por favor, indique a fonte ao reimprimir, obrigado
Obrigado a danieldu2008 pela sua contribuição