Um mecanismo de busca para curiosos. É um algoritmo de pesquisa projetado para envolver os usuários, expondo-os a conteúdo relevante, porém interessante, durante a sessão.
O algoritmo de pesquisa implementado em seu site influencia muito o envolvimento do visitante. Uma implementação decente pode reduzir significativamente a dependência de mecanismos de pesquisa padrão como o Google para cada consulta, aumentando assim o engajamento. Os métodos tradicionais analisam termos ou frases em sua consulta para encontrar conteúdo relevante com base na correspondência sintática. Kroomsa usa correspondência semântica para encontrar conteúdo relevante para sua consulta. Há uma postagem no blog que expande a motivação de Kroomsa e seus aspectos técnicos.
python3 ./setup.py
no diretório raiz./vectorizer
./config
no parâmetro bot_codes
no seguinte formato: "client_id client_secret user_agent"
como elementos de lista separados por ,
.python3 -m pip install -r ./preprocess_requirements.txt
python3 ./pre_processing/scraping/questions/scrape_questions.py
. Ele inicia um script que raspa os subreddits sequencialmente até seu início e armazena os envios como objetos JSON em /pre_processing/scraping/questions/scraped_questions
. Em seguida, ele particiona os envios copiados em tantas partes iguais quantas forem as instâncias registradas de bots.bot_codes
, podemos começar a extrair os comentários usando os arquivos de envio particionados criados durante a extração dos envios. Usando o seguinte comando: python3 ./pre_processing/scraping/comments/scrape_comments.py
vários processos são gerados para buscar fluxos de comentários simultaneamente.python3 ./pre_processing/db_insertion/insertion.py
. Ele insere as postagens e comentários associados no mongo.python3 ./post_processing/post_processing.py
. Além da limpeza, também adiciona emojis a cada objeto de envio (este comportamento é configurável).python3 ./index/build_index.py
. Por padrão, ele cria um IDMap, Flat
, mas é configurável por meio de /config
./mongo_dump
. Use o seguinte comando no diretório raiz para criar um dump do banco de dados. mongodump --db database_name(default: red) --collection collection_name(default: questions) -o ./mongo_dump
.python3 -m pip install -r ./inference_requirements.txt
gunicorn -c ./gunicorn_config.py server:app
demo_mode
como True
em /config
.docker-compose build
docker-compose up
Este projeto está licenciado sob a Licença Apache Versão 2.0