Implémentation d'un search engine
utilisant différents modèles et algorithmes de recherche tels que binary search
, tf-idf
et word embeddings
. En outre, la mise en œuvre des algorithmes de clustering K-means
et KNN
pour accélérer la recherche.
Il existe deux ensembles de données. L’un contient 7 000 articles d’actualité et le second contient 50 000 articles d’actualité utilisés pour le clustering. Les articles du deuxième ensemble de données ont des catégories ( sport
, economy
, politics
, culture
et health
) et ils ont été utilisés dans KNN
pour étiqueter les articles du premier ensemble de données. Les ensembles de données ne sont pas dans ce référentiel.
Tout d'abord, vous créez un modèle d'index inversé avec l'option 1 ou chargez un modèle précédent avec l'option 2. Les options 3 et 4 concernent respectivement la loi Zipf et la loi Heaps. L'option 5 sert à initialiser notre modèle kmeans (ce qui prend environ une heure). L'option 6 consiste à étiqueter notre petit ensemble de données (qui contient 7 000 articles d'actualité) à l'aide de notre plus grand ensemble de données (qui contient 50 000 articles d'actualité).
En deuxième entrée, vous devez choisir le modèle à utiliser (entre le modèle binary
simple, le modèle tf-idf
, le modèle word2vec
, le modèle k-means
ou KNN
) pour la recherche, puis rédiger votre requête.
Les 5 meilleurs résultats de recherche et leurs scores vous sont présentés.