Vereinfachte Suchmaschine
das Daten crawlt, verschrottet, indiziert und in einer Datenbank speichert
Das Programm ist in der Python-Sprache geschrieben, verwendet Regex zum Parsen von HTML und MultiThreading, um schneller zu sein. Der Datenbankteil wird durch MongoDB sichergestellt. Das Projekt enthält 4 Dateien:
PersonalParser.py:
– Enthält die PersonnalParser-Klasse, die HTML-Inhalte abruft, analysiert, speichert und für jeden Link im Seiteninhalt einen neuen PersonnalParser-Thread startet.
DBManager.py
- Enthält die DBManager-Klasse, die die Verbindung mit der Datenbank sowie Einfüge- und/oder Suchvorgänge sicherstellt.
fill_database.py:
- Enthält die allgemeinen Einstellungen wie Start-URL, Proxy-Einstellungen und Tiefensuche. Der erste Crawl-Thread beginnt hier.
main.py
– Enthält den Code, der die Benutzersuche abruft, den Datenbankinhalt abruft und die Ergebnisse nach Relevanz sortiert.