เครื่องมือค้นหาแบบง่าย
ที่รวบรวมข้อมูล เศษ จัดทำดัชนีข้อมูลและจัดเก็บไว้ในฐานข้อมูล
โปรแกรมนี้เขียนด้วยภาษา Python ใช้ regex เพื่อแยกวิเคราะห์ HTML และ MultiThreading เพื่อให้ทำงานเร็วขึ้น ส่วนของฐานข้อมูลได้รับการรับรองโดย MongoDB โครงการประกอบด้วย 4 ไฟล์:
PersonalParser.py:
- ประกอบด้วยคลาส PersonnalParser ที่ได้รับเนื้อหา HTML แยกวิเคราะห์ จัดเก็บ และเริ่มเธรด PersonnalParser ใหม่สำหรับแต่ละลิงก์ในเนื้อหาเพจ
DBManager.py
- ประกอบด้วยคลาส DBManager ซึ่งรับประกันการเชื่อมต่อกับ DB และการแทรกและ/หรือการค้นหาการดำเนินการ
fill_database.py:
- ประกอบด้วยการตั้งค่าทั่วไป เช่น URL เริ่มต้น การตั้งค่าพร็อกซี และการค้นหาเชิงลึก เธรดการรวบรวมข้อมูลแรกเริ่มต้นที่นี่
main.py
- ประกอบด้วยโค้ดที่ใช้รับการค้นหาของผู้ใช้ รับเนื้อหาฐานข้อมูล และเรียงลำดับผลลัพธ์ตามความเกี่ยวข้อง