يحتوي على الواجبات التي تم إنجازها لدورة CSCI572 في جامعة جنوب كاليفورنيا.
اللغات: بايثون 3.7
I/P : مجموعة من الاستعلامات وأهم 10 نتائج Google المقابلة لها
O/P : معامل سبيرمان لكل استعلام يقارن نتائج Google وBing
اللغات: جافا 11
المكتبات: Crawler4j
I/P: اسم مجال موقع الويب المراد الزحف إليه
O/P: قائمة عناوين URL التي تم جلبها مع إحصاءاتها
اللغات: جافا 11
المكتبات: أباتشي Hadoop
الأنظمة: Google Cloud وMicrosoft Azure I/P: قائمة عناوين URL التي سيتم فهرستها
O/P: فهرسة ملفات Unigrams وBigrams لعناوين URL
اللغات: Java 11، Python 3.7، HTML، CSS، PHP، JavaScript، JQuery
المكتبات: Apache Lucene، Apache Solr، Apache Tika، NetworkX، jsoup، PeterNorvig's SpellCorrector
وظائف :
1. حساب رتبة الصفحة :
تم استخدام jsoup في Java لتحليل جميع الروابط من صفحات الويب التي تم الزحف إليها لإنشاء ملف EdgeList.
تم استخدام NetworkX في Python لإنشاء رسم بياني موجه من EdgeList وحساب قيم تصنيف الصفحة لجميع عناوين URL.
2. إعداد لوسين وسولر:
تم إنشاء نواة Solr للزحف إلى ملفات html وإنتاج فهرس مقلوب بكفاءة.
حدد الأمر في Solr باسترداد صفحات الويب للاستعلام المقدم. يستخدم داخليًا مساحة ناقل Lucene وتمثيل النموذج المنطقي ويفرز النتائج باستخدام TF-IDF.
تم توفير وظائف إضافية لفرز نتائج صفحة الويب باستخدام قيم ترتيب الصفحة المحسوبة مسبقًا.
3. صفحة ويب محرك البحث Iditom:
تم تطوير كود PHP ليكون بمثابة العميل للحصول على الاستعلام من المستخدمين. يمكن للمستخدم اختيار استخدام خوارزمية التصنيف الافتراضية الخاصة بـ Lucene أو خوارزمية تصنيف الصفحة لفرز النتائج التي تم جلبها. باستخدام Client API إلى Solr، يتم استرداد نتائج صفحة الويب للاستعلام.
يتم توفير واجهة الويب مثل Google.
4. التدقيق الإملائي والإكمال التلقائي:
تم إنشاء ملف نصي للمفردات بعد التحليل والمعالجة المسبقة للكلمات من صفحات الويب التي تم الزحف إليها باستخدام Apache Tika.
تم استخدام خوارزمية Peter-Norvig's SpellCorrector وتغذية هذه المفردات لحساب احتمالات تحرير المسافة 1 و2.
تمت إضافة وظيفة التدقيق الإملائي إلى محرك البحث Iditom، لتقليد Google (إظهار النتائج عن __، البحث بدلاً من ذلك عن __).
تم استخدام نتائج الإكمال التلقائي الافتراضية الخاصة بـ Solr والتي تستخدم بحث Fuzzy Factory لاقتراحات الكلمات.
شاهد فيديو محرك البحث هنا - https://youtu.be/lYZ_SdsIX3A