Реализация search engine
с использованием различных моделей и алгоритмов поиска, таких как binary search
, tf-idf
и word embeddings
. Также реализована кластеризация K-means
и алгоритмы KNN
для ускорения поиска.
Есть два набора данных. В одном содержится 7 тысяч новостных статей, а во втором — 50 тысяч новостных статей, используемых для кластеризации. Статьи во втором наборе данных имеют категории ( sport
, economy
, politics
, culture
и health
), и они использовались в KNN
для маркировки статей в первом наборе данных. Наборы данных отсутствуют в этом репозитории.
Сначала вы создаете модель инвертированного индекса с опцией 1 или загружаете предыдущую модель с опцией 2. Варианты 3 и 4 предназначены для закона Ципфа и Хипса соответственно. Вариант 5 предназначен для инициализации нашей модели kmeans (это занимает около часа). Вариант 6 предназначен для маркировки нашего небольшого набора данных (содержащего 7 тысяч новостных статей) с использованием нашего более крупного набора данных (содержащего 50 тысяч новостных статей).
В качестве второго ввода вы должны выбрать, какую модель использовать (между простой binary
моделью, моделью tf-idf
, моделью word2vec
, моделью k-means
или KNN
) для поиска, а затем написать свой запрос.
Вам будут показаны 5 лучших результатов поиска и их оценки.