Existem recursos abundantes na Internet, mas é difícil pesquisar informações de maneira eficaz. Construir um mecanismo de busca é a melhor maneira de resolver esse problema. Este artigo primeiro apresenta em detalhes a estrutura do sistema do mecanismo de pesquisa baseado na Internet e, em seguida, fornece uma explicação detalhada de três aspectos: robô de rede, mecanismo de indexação e servidor Web. Para ter uma compreensão mais profunda desta tecnologia, também implementei pessoalmente um mecanismo de busca próprio - um mecanismo de busca de notícias.
O mecanismo de busca de notícias analisa e pesquisa páginas da web específicas de acordo com hiperlinks, indexa cada notícia encontrada e as adiciona ao banco de dados. Em seguida, o servidor Web aceita a solicitação do cliente e procura as notícias correspondentes no banco de dados de índice.
No capítulo que apresenta o mecanismo de busca, além de detalhar a tecnologia central, também combinei o código de implementação do mecanismo de busca de notícias para ilustrar, com imagens e textos de fácil compreensão.
Índice Índice 1
Resumo 3
Capítulo 1 Introdução 4
Capítulo 2 A estrutura dos motores de busca 5
2.1 Visão Geral do Sistema 5
2.2 Composição dos motores de busca 5
2.2.1 Robô de rede 5
2.2.2 Indexação e Pesquisa 5
2.2.3 Servidor Web 6
2.3 Principais indicadores e análises dos motores de busca 6
Seção 2.4 6
Capítulo 3 Robô de Rede 7
3.1 O que é um robô de rede 7
3.2 Análise estrutural de robôs de rede 7
3.2.1 Como analisar HTML 7
3.2.2 Estrutura do programa Spider 8
3.2.3 Como construir um programa Spider 9
3.2.4 Como melhorar o desempenho do programa 11
3.2.5 Análise de código de robôs de rede 12
Seção 3.3 14
Capítulo 4 Indexação e Pesquisa Baseada em LUCENE 15
4.1 O que é pesquisa de texto completo LUCENE 15
4.2 Análise principal do LUCENE 15
4.2.1 Mecanismo de implementação de recuperação de texto completo 15
4.2.2 Eficiência de indexação do Lucene 15
4.2.3 Mecanismo de segmentação de palavras chinesas 17
4.3 Combinação de LUCENE e SPIDER 18
Seção 4.4 21
Capítulo 5 Servidor WEB baseado em TOMCAT 22
5.1 O que é um servidor WEB baseado em TOMCAT 22
5.2 Design da interface do usuário 22
5.3.1 Projeto do cliente 22
5.3.2 Projeto do servidor 23
5.3 Implantar o projeto no TOMCAT 25
Seção 5.4 25
Capítulo 6 Estratégia de mecanismo de pesquisa 26
6.1 Introdução 26
6.2 Estratégia de pesquisa orientada por tópico 26
6.2.1 Palavras-guia 26
6.2.3 Páginas da web autorizadas e páginas da web centrais 27
Seção 6.3 27
Referência 28
Expandir