Mesin Pencari yang Disederhanakan
yang merayapi, membuang, mengindeks data dan menyimpannya ke dalam database
Program ini ditulis dalam Bahasa Python, menggunakan regex untuk mengurai HTML, dan MultiThreading agar lebih cepat. Bagian database dijamin oleh MongoDB. Proyek ini berisi 4 file:
PersonalParser.py:
- Berisi kelas PersonnalParser, yang mengambil konten HTML, menguraikannya, menyimpannya dan memulai Thread PersonnalParser baru untuk setiap link di konten halaman.
DBManager.py
- Berisi kelas DBManager, yang menjamin koneksi dengan DB dan operasi penyisipan dan/atau pencarian.
isi_database.py:
- Berisi pengaturan umum seperti URL awal, pengaturan proxy, dan pencarian mendalam. Perayapan pertama Thread dimulai di sini.
main.py
- Berisi kode yang mendapatkan pencarian pengguna, mendapatkan konten database dan mengurutkan hasil berdasarkan relevansi.