Implementar un search engine
utilizando diferentes modelos y algoritmos de búsqueda como binary search
, tf-idf
e word embeddings
. Además, implementando agrupamiento K-means
y algoritmos KNN
para acelerar la búsqueda.
Hay dos conjuntos de datos. Uno tiene 7.000 artículos de noticias y el segundo tiene 50.000 artículos de noticias utilizados para la agrupación. Los artículos del segundo conjunto de datos tienen categorías ( sport
, economy
, politics
, culture
y health
) y se utilizaron en KNN
para etiquetar los artículos del primer conjunto de datos. Los conjuntos de datos no están en este repositorio.
Primero, crea un modelo de índice invertido con la opción 1 o carga un modelo anterior con la opción 2. Las opciones 3 y 4 son para la ley Zipf y Heaps, respectivamente. La opción 5 es para inicializar nuestro modelo kmeans (lo que demora aproximadamente una hora). La opción 6 es etiquetar nuestro pequeño conjunto de datos (que contiene 7.000 artículos de noticias) utilizando nuestro conjunto de datos más grande (que contiene 50.000 artículos de noticias).
Como segunda entrada, debe elegir qué modelo usar (entre modelo binary
simple, modelo tf-idf
, modelo word2vec
, modelo k-means
o KNN
) para la búsqueda y luego escribir su consulta.
Se le muestran los 5 mejores resultados de búsqueda y sus puntuaciones.