Un moteur de recherche pour les curieux. Il s'agit d'un algorithme de recherche conçu pour engager les utilisateurs en les exposant à un contenu pertinent mais intéressant au cours de leur session.
L'algorithme de recherche mis en œuvre sur votre site Web influence grandement l'engagement des visiteurs. Une mise en œuvre décente peut réduire considérablement la dépendance aux moteurs de recherche standard comme Google pour chaque requête, augmentant ainsi l'engagement. Les méthodes traditionnelles examinent les termes ou expressions de votre requête pour trouver un contenu pertinent basé sur la correspondance syntaxique. Kroomsa utilise la correspondance sémantique pour trouver du contenu pertinent pour votre requête. Il existe un article de blog qui développe la motivation de Kroomsa et ses aspects techniques.
python3 ./setup.py
dans le répertoire racine./vectorizer
./config
sous bot_codes
au format suivant : "client_id client_secret user_agent"
sous forme d'éléments de liste séparés par ,
.python3 -m pip install -r ./preprocess_requirements.txt
python3 ./pre_processing/scraping/questions/scrape_questions.py
. Il lance un script qui récupère les subreddits séquentiellement jusqu'à leur création et stocke les soumissions sous forme d'objets JSON dans /pre_processing/scraping/questions/scraped_questions
. Il divise ensuite les soumissions récupérées en autant de parties égales qu'il y a d'instances de robots enregistrées.bot_codes
, nous pouvons commencer à récupérer les commentaires en utilisant les fichiers de soumission partitionnés créés lors du scraping des soumissions. À l'aide de la commande suivante : python3 ./pre_processing/scraping/comments/scrape_comments.py
plusieurs processus sont générés qui récupèrent simultanément les flux de commentaires.python3 ./pre_processing/db_insertion/insertion.py
. Il insère les posts et commentaires associés dans mongo.python3 ./post_processing/post_processing.py
. Outre le nettoyage, il ajoute également des emojis à chaque objet de soumission (ce comportement est configurable).python3 ./index/build_index.py
. Par défaut, il crée un index IDMap, Flat
exhaustif mais est configurable via le /config
./mongo_dump
. Utilisez la commande suivante dans le répertoire racine pour créer un vidage de base de données. mongodump --db database_name(default: red) --collection collection_name(default: questions) -o ./mongo_dump
.python3 -m pip install -r ./inference_requirements.txt
gunicorn -c ./gunicorn_config.py server:app
demo_mode
sur True
dans /config
.docker-compose build
docker-compose up
Ce projet est sous licence Apache License Version 2.0