簡素化された検索エンジン
データをクロール、スクラップ、インデックス付けしてデータベースに保存する
プログラムは Python 言語で書かれており、正規表現を使用して HTML を解析し、マルチスレッドを使用して高速化します。データベース部分は MongoDB によって保証されています。プロジェクトには 4 つのファイルが含まれています。
PersonalParser.py:
- HTML コンテンツを取得、解析、保存し、ページ コンテンツ内のリンクごとに新しい PersonalParser スレッドを開始する PersonalParser クラスが含まれています。
DBManager.py
- DB との接続および挿入および/または検索操作を保証する DBManager クラスが含まれています。
fill_database.py:
- 開始 URL、プロキシ設定、深度検索などの一般設定が含まれます。最初のクロール スレッドはここから始まります。
main.py
- ユーザー検索を取得し、データベースのコンテンツを取得し、結果を関連性によって並べ替えるコードが含まれています。