Information Retrieval Project
1.0.0
binary search
、 tf-idf
、 word embeddings
などのさまざまな検索モデルとアルゴリズムを使用してsearch engine
実装します。また、 K-means
クラスタリングとKNN
アルゴリズムを実装して検索を高速化します。
2 つのデータセットがあります。 1 つは 7,000 のニュース記事を含み、2 つ目はクラスタリングに使用される 50,000 のニュース記事を含みます。 2 番目のデータセットの記事にはカテゴリ ( sport
、 economy
、 politics
、 culture
、 health
) があり、これらはKNN
で最初のデータセットの記事にラベルを付けるために使用されました。データセットはこのリポジトリにありません。
まず、オプション 1 で逆インデックス モデルを作成するか、オプション 2 で以前のモデルをロードします。オプション 3 と 4 は、それぞれ Zipf 則と Heaps 則用です。オプション 5 は、kmeans モデルを初期化するためのものです (約 1 時間かかります)。オプション 6 は、より大きなデータセット (50,000 のニュース記事を含む) を使用して、小さなデータセット (7,000 のニュース記事を含む) にラベルを付けるためのものです。
2 番目の入力として、検索に使用するモデル (単純なbinary
モデル、 tf-idf
モデル、 word2vec
モデル、 k-means
モデル、またはKNN
の間) を選択し、クエリを作成する必要があります。
上位 5 件の検索結果とそのスコアが表示されます。