Information Retrieval Project
1.0.0
binary search
, tf-idf
및 word embeddings
과 같은 다양한 검색 모델 및 알고리즘을 사용하여 search engine
구현합니다. 또한 K-means
클러스터링 및 KNN
알고리즘을 구현하여 검색 속도를 높입니다.
두 개의 데이터 세트가 있습니다. 하나에는 7,000개의 뉴스 기사가 있고, 두 번째에는 클러스터링에 사용되는 50,000개의 뉴스 기사가 있습니다. 두 번째 데이터세트의 기사에는 카테고리( sport
, economy
, politics
, culture
, health
)가 있으며 KNN
에서 첫 번째 데이터세트의 기사에 라벨을 지정하는 데 사용되었습니다. 데이터세트가 이 저장소에 없습니다.
먼저 옵션 1을 사용하여 역 인덱스 모델을 생성하거나 옵션 2를 사용하여 이전 모델을 로드합니다. 옵션 3과 4는 각각 Zipf 및 Heaps 법칙에 대한 것입니다. 옵션 5는 kmeans 모델을 초기화하는 것입니다(약 1시간 소요). 옵션 6은 더 큰 데이터 세트(50,000개의 뉴스 기사 포함)를 사용하여 작은 데이터 세트(7,000개의 뉴스 기사 포함)에 라벨을 지정하는 것입니다.
두 번째 입력으로 검색에 사용할 모델(단순 binary
모델, tf-idf
모델, word2vec
모델, k-means
모델 또는 KNN
중)을 선택한 다음 쿼리를 작성해야 합니다.
상위 5개의 검색 결과와 해당 점수가 표시됩니다.