تنفيذ search engine
باستخدام نماذج بحث وخوارزميات مختلفة مثل binary search
و tf-idf
word embeddings
. بالإضافة إلى تطبيق K-means
Clustering وخوارزميات KNN
لتسريع البحث.
هناك نوعان من مجموعات البيانات. يحتوي أحدهما على 7 آلاف مقال إخباري، والثاني يحتوي على 50 ألف مقال إخباري يستخدم للتجميع. تحتوي المقالات الموجودة في مجموعة البيانات الثانية على فئات ( sport
، economy
، politics
، culture
، health
)، وقد تم استخدامها في KNN
لتصنيف المقالات في مجموعة البيانات الأولى. مجموعات البيانات ليست في هذا المستودع.
أولاً، يمكنك إنشاء نموذج فهرس مقلوب مع الخيار 1 أو تحميل نموذج سابق مع الخيار 2. الخياران 3 و4 مخصصان لقانون Zipf وHeaps، على التوالي. الخيار الخامس مخصص لتهيئة نموذج kmeans الخاص بنا (والذي يستغرق حوالي ساعة). الخيار 6 مخصص لتصنيف مجموعة البيانات الصغيرة لدينا (التي تحتوي على 7 آلاف مقالة إخبارية) باستخدام مجموعة البيانات الأكبر لدينا (التي تحتوي على 50 ألف مقالة إخبارية).
كمدخل ثانٍ، يجب عليك اختيار النموذج الذي تريد استخدامه (بين النموذج binary
البسيط أو نموذج tf-idf
أو نموذج word2vec
أو نموذج k-means
أو KNN
) للبحث ثم كتابة الاستعلام الخاص بك.
تظهر لك أفضل 5 نتائج بحث ونتائجها.