Information Retrieval Project
1.0.0
使用不同的搜索模型和算法(例如binary search
、 tf-idf
和word embeddings
)实现search engine
。此外,还实施K-means
聚类和KNN
算法来加快搜索速度。
有两个数据集。第一个有 7k 篇新闻文章,第二个有 50k 篇新闻文章用于聚类。第二个数据集中的文章有类别( sport
、 economy
、 politics
、 culture
和health
),它们在KNN
中用于标记第一个数据集中的文章。数据集不在此存储库中。
首先,使用选项 1 创建倒排索引模型,或使用选项 2 加载先前的模型。选项 3 和 4 分别适用于 Zipf 定律和堆定律。选项 5 用于初始化我们的 kmeans 模型(大约需要一个小时)。选项 6 用于使用更大的数据集(包含 50k 新闻文章)来标记我们的小数据集(包含 7k 新闻文章)。
作为第二个输入,您应该选择使用哪个模型(在简单binary
模型、 tf-idf
模型、 word2vec
模型、 k-means
模型或KNN
之间)进行搜索,然后编写查询。
将向您显示前 5 个搜索结果及其分数。