Eine Suchmaschine für Neugierige. Dabei handelt es sich um einen Suchalgorithmus, der darauf ausgelegt ist, Benutzer einzubeziehen, indem er ihnen während ihrer Sitzung relevante und dennoch interessante Inhalte präsentiert.
Der auf Ihrer Website implementierte Suchalgorithmus hat großen Einfluss auf die Besucherinteraktion. Eine gute Implementierung kann die Abhängigkeit von Standardsuchmaschinen wie Google bei jeder Suchanfrage erheblich reduzieren und so das Engagement steigern. Herkömmliche Methoden untersuchen Begriffe oder Phrasen in Ihrer Abfrage, um anhand der syntaktischen Übereinstimmung relevante Inhalte zu finden. Kroomsa verwendet semantisches Matching, um für Ihre Anfrage relevante Inhalte zu finden. Es gibt einen Blogbeitrag, der Kroomsas Motivation und ihre technischen Aspekte näher erläutert.
python3 ./setup.py
im Stammverzeichnis./vectorizer
./config
unter dem Parameter bot_codes
hinzu: "client_id client_secret user_agent"
als durch ,
getrennte Listenelemente.python3 -m pip install -r ./preprocess_requirements.txt
python3 ./pre_processing/scraping/questions/scrape_questions.py
. Es startet ein Skript, das die Subreddits nacheinander bis zu ihrem Beginn durchsucht und die Einsendungen als JSON-Objekte in /pre_processing/scraping/questions/scraped_questions
speichert. Anschließend werden die gelöschten Einsendungen in so viele gleiche Teile aufgeteilt, wie es registrierte Bots-Instanzen gibt.bot_codes
gefüllt haben, können wir mit dem Scraping der Kommentare beginnen, indem wir die beim Scraping von Einreichungen erstellten partitionierten Einreichungsdateien verwenden. Mit dem folgenden Befehl: python3 ./pre_processing/scraping/comments/scrape_comments.py
werden mehrere Prozesse erzeugt, die gleichzeitig Kommentarströme abrufen.python3 ./pre_processing/db_insertion/insertion.py
. Es fügt die Beiträge und zugehörigen Kommentare in Mongo ein.python3 ./post_processing/post_processing.py
aus. Neben der Bereinigung werden auch Emojis zu jedem Übermittlungsobjekt hinzugefügt (dieses Verhalten ist konfigurierbar).python3 ./index/build_index.py
. Standardmäßig wird ein umfassender IDMap, Flat
Index erstellt, der jedoch über /config
konfiguriert werden kann./mongo_dump
erforderlich. Verwenden Sie den folgenden Befehl im Stammverzeichnis, um einen Datenbank-Dump zu erstellen. mongodump --db database_name(default: red) --collection collection_name(default: questions) -o ./mongo_dump
.python3 -m pip install -r ./inference_requirements.txt
gunicorn -c ./gunicorn_config.py server:app
demo_mode
in /config
auf True
.docker-compose build
docker-compose up
Dieses Projekt ist unter der Apache-Lizenz Version 2.0 lizenziert