Mecanismo de pesquisa simplificado
que rastreia, coleta, indexa dados e os armazena em um banco de dados
O programa é escrito em linguagem Python, usa regex para analisar HTML e MultiThreading para ser mais rápido. A parte do banco de dados é assegurada pelo MongoDB. O projeto contém 4 arquivos:
PessoalParser.py:
- Contém a classe PersonnalParser, que obtém o conteúdo HTML, analisa-o, armazena-o e inicia um novo Thread PersonnalParser para cada link no conteúdo da página.
DBManager.py
- Contém a classe DBManager, que garante a conexão com o BD e operações de inserção e/ou localização.
fill_database.py:
- Contém as configurações gerais como URL inicial, configurações de proxy e pesquisa profunda. O primeiro thread de rastreamento começa aqui.
principal.py
- Contém o código que obtém a pesquisa do usuário, obtém o conteúdo do banco de dados e classifica os resultados por relevância.