簡化的搜尋引擎
抓取、抓取、索引資料並將其儲存到資料庫中
該程式是用 Python 語言編寫的,使用正規表示式來解析 HTML,並使用多執行緒來加快速度。資料庫部分由MongoDB保證專案包含4個檔案:
個人解析器.py:
- 包含 PersonnalParser 類,用於取得 HTML 內容、解析它、儲存它並為頁面內容中的每個連結啟動新的 PersonnalParser 執行緒。
資料庫管理員.py
- 包含 DBManager 類,確保與資料庫的連線以及插入和/或查找操作。
填充資料庫.py:
- 包含常規設置,如起始 URL、代理設定和深度搜尋。第一個爬行線程從這裡開始。
主要.py
- 包含取得使用者搜尋、取得資料庫內容並依相關性對結果進行排序的程式碼。