Motor de búsqueda simplificado
que rastrea, elimina, indexa datos y los almacena en una base de datos
El programa está escrito en lenguaje Python, utiliza expresiones regulares para analizar HTML y MultiThreading para ir más rápido. La parte de la base de datos está asegurada por MongoDB. El proyecto contiene 4 archivos:
PersonnalParser.py:
- Contiene la clase PersonnalParser, que obtiene contenido HTML, lo analiza, lo almacena e inicia un nuevo hilo PersonnalParser para cada enlace en el contenido de la página.
DBManager.py
- Contiene la clase DBManager, que asegura la conexión con la BD y operaciones de inserción y/o búsqueda.
fill_database.py:
- Contiene la configuración general como URL de inicio, configuración de proxy y búsqueda profunda. El primer hilo de rastreo comienza aquí.
principal.py
- Contiene el código que obtiene la búsqueda del usuario, obtiene el contenido de la base de datos y ordena los resultados por relevancia.