Implementierung einer search engine
unter Verwendung verschiedener Suchmodelle und Algorithmen wie binary search
, tf-idf
und word embeddings
. Außerdem werden K-means
Clustering und KNN
-Algorithmen implementiert, um die Suche zu beschleunigen.
Es gibt zwei Datensätze. Einer enthält 7.000 Nachrichtenartikel und der zweite enthält 50.000 Nachrichtenartikel, die für das Clustering verwendet werden. Artikel im zweiten Datensatz haben Kategorien ( sport
, economy
, politics
, culture
und health
) und wurden in KNN
zur Kennzeichnung von Artikeln im ersten Datensatz verwendet. Datensätze befinden sich nicht in diesem Repository.
Zuerst erstellen Sie ein invertiertes Indexmodell mit Option 1 oder laden ein früheres Modell mit Option 2. Optionen 3 und 4 gelten für das Zipf- bzw. Heaps-Gesetz. Option 5 dient der Initialisierung unseres kmeans-Modells (was etwa eine Stunde dauert). Option 6 besteht darin, unseren kleinen Datensatz (der 7.000 Nachrichtenartikel enthält) mit unserem größeren Datensatz (der 50.000 Nachrichtenartikel enthält) zu kennzeichnen.
Als zweite Eingabe sollten Sie auswählen, welches Modell Sie für die Suche verwenden möchten (zwischen einfachem binary
, tf-idf
Modell, word2vec
-Modell, k-means
-Modell oder KNN
) und dann Ihre Abfrage schreiben.
Die Top-5-Suchergebnisse und ihre Bewertungen werden Ihnen angezeigt.