Menerapkan search engine
menggunakan model pencarian dan algoritma yang berbeda seperti binary search
, tf-idf
, dan word embeddings
. Juga menerapkan algoritma K-means
clustering dan KNN
untuk mempercepat pencarian.
Ada dua kumpulan data. Yang pertama memiliki 7 ribu artikel berita, dan yang kedua memiliki 50 ribu artikel berita yang digunakan untuk pengelompokan. Artikel pada kumpulan data kedua memiliki kategori ( sport
, economy
, politics
, culture
, dan health
), dan artikel tersebut digunakan di KNN
untuk memberi label pada artikel pada kumpulan data pertama. Kumpulan data tidak ada dalam repositori ini.
Pertama, Anda membuat model indeks terbalik dengan opsi 1 atau memuat model sebelumnya dengan opsi 2. Opsi 3 dan 4 masing-masing untuk hukum Zipf dan Heaps. Opsi 5 adalah untuk menginisialisasi model kmeans kami (yang memakan waktu sekitar satu jam). Opsi 6 adalah memberi label pada kumpulan data kecil kami (yang berisi 7 ribu artikel berita) menggunakan kumpulan data kami yang lebih besar (yang berisi 50 ribu artikel berita).
Sebagai masukan kedua, Anda harus memilih model mana yang akan digunakan (antara model binary
sederhana, model tf-idf
, model word2vec
, model k-means
atau KNN
) untuk pencarian dan kemudian tulis kueri Anda.
5 hasil pencarian teratas dan skornya ditampilkan kepada Anda.