Implementar um search engine
usando diferentes modelos e algoritmos de pesquisa, como binary search
, tf-idf
e word embeddings
. Além disso, implementando clustering K-means
e algoritmos KNN
para acelerar a pesquisa.
Existem dois conjuntos de dados. Um tem 7 mil artigos de notícias e o segundo tem 50 mil artigos de notícias usados para agrupamento. Os artigos do segundo conjunto de dados possuem categorias ( sport
, economy
, politics
, culture
e health
) e foram usados no KNN
para rotular artigos no primeiro conjunto de dados. Os conjuntos de dados não estão neste repositório.
Primeiro, você cria um modelo de índice invertido com a opção 1 ou carrega um modelo anterior com a opção 2. As opções 3 e 4 são para a lei Zipf e Heaps, respectivamente. A opção 5 serve para inicializar nosso modelo kmeans (que leva cerca de uma hora). A opção 6 é para rotular nosso pequeno conjunto de dados (que contém 7 mil artigos de notícias) usando nosso conjunto de dados maior (que contém 50 mil artigos de notícias).
Como segunda entrada, você deve escolher qual modelo usar (entre modelo binary
simples, modelo tf-idf
, modelo word2vec
, modelo k-means
ou KNN
) para pesquisa e então escrever sua consulta.
Os 5 principais resultados da pesquisa e suas pontuações são mostrados a você.