Упрощенная поисковая система
который сканирует, удаляет, индексирует данные и сохраняет их в базе данных
Программа написана на языке Python, использует регулярные выражения для анализа HTML и многопоточность для ускорения работы. Часть базы данных обеспечивается MongoDB. Проект содержит 4 файла:
ПерсональныйПарсер.py:
— Содержит класс PersonnalParser, который получает содержимое HTML, анализирует его, сохраняет и запускает новый поток PersonnalParser для каждой ссылки в содержимом страницы.
DBManager.py
- Содержит класс DBManager, который обеспечивает связь с БД и операции вставки и/или поиска.
fill_database.py:
- Содержит общие настройки, такие как начальный URL, настройки прокси и поиск по глубине. Здесь начинается первая тема сканирования.
main.py
- Содержит код, который выполняет поиск пользователя, получает содержимое базы данных и сортирует результаты по релевантности.