简化的搜索引擎
抓取、抓取、索引数据并将其存储到数据库中
该程序是用 Python 语言编写的,使用正则表达式来解析 HTML,并使用多线程来加快速度。数据库部分由MongoDB保证该项目包含4个文件:
个人解析器.py:
- 包含 PersonnalParser 类,用于获取 HTML 内容、解析它、存储它并为页面内容中的每个链接启动新的 PersonnalParser 线程。
数据库管理器.py
- 包含 DBManager 类,确保与数据库的连接以及插入和/或查找操作。
填充数据库.py:
- 包含常规设置,如起始 URL、代理设置和深度搜索。第一个爬行线程从这里开始。
主要.py
- 包含获取用户搜索、获取数据库内容并按相关性对结果进行排序的代码。