محرك بحث مبسط
الذي يزحف إلى البيانات ويتخلص منها ويفهرسها ويخزنها في قاعدة بيانات
البرنامج مكتوب بلغة بايثون، ويستخدم regex لتحليل HTML، وMultiThreading للعمل بشكل أسرع. يتم تأمين جزء قاعدة البيانات بواسطة MongoDB. يحتوي المشروع على 4 ملفات:
بيرسونالبارسر.py:
- يحتوي على فئة PersonnalParser، التي تحصل على محتوى HTML، وتحلله، وتخزنه وتبدأ مؤشر PersonalParser جديد لكل رابط في محتوى الصفحة.
DBManager.py
- يحتوي على فئة DBManager، التي تضمن الاتصال بقاعدة البيانات وإدراج و/أو البحث عن العمليات.
fill_database.py:
- يحتوي على الإعدادات العامة مثل عنوان URL للبدء وإعدادات الوكيل والبحث المتعمق. يبدأ موضوع الزحف الأول هنا.
main.py
- يحتوي على الكود الذي يحصل على بحث المستخدم، ويحصل على محتوى قاعدة البيانات ويفرز النتائج حسب الصلة.