Information Retrieval Project
1.0.0
使用不同的搜尋模型和演算法(例如binary search
、 tf-idf
和word embeddings
)實現search engine
。此外,也實作K-means
聚類和KNN
演算法來加快搜尋速度。
有兩個數據集。第一個有 7k 篇新聞文章,第二個有 50k 篇新聞文章用於聚類。第二個資料集中的文章有類別( sport
、 economy
、 politics
、 culture
和health
),它們在KNN
中用於標記第一個資料集中的文章。資料集不在此儲存庫中。
首先,使用選項 1 建立倒排索引模型,或使用選項 2 載入先前的模型。選項 5 用於初始化我們的 kmeans 模型(大約需要一個小時)。選項 6 用於使用更大的資料集(包含 50k 新聞文章)來標記我們的小資料集(包含 7k 新聞文章)。
作為第二個輸入,您應該選擇使用哪個模型(在簡單binary
模型、 tf-idf
模型、 word2vec
模型、 k-means
模型或KNN
之間)進行搜索,然後編寫查詢。
將向您顯示前 5 個搜尋結果及其分數。