Un motor de búsqueda para curiosos. Es un algoritmo de búsqueda diseñado para atraer a los usuarios exponiéndolos a contenido relevante pero interesante durante su sesión.
El algoritmo de búsqueda implementado en su sitio web influye en gran medida en la participación de los visitantes. Una implementación decente puede reducir significativamente la dependencia de motores de búsqueda estándar como Google para cada consulta, aumentando así la participación. Los métodos tradicionales analizan los términos o frases de su consulta para encontrar contenido relevante basándose en la coincidencia sintáctica. Kroomsa utiliza la coincidencia semántica para encontrar contenido relevante para su consulta. Hay una entrada en el blog que amplía la motivación de Kroomsa y sus aspectos técnicos.
python3 ./setup.py
en el directorio raíz./vectorizer
./config
bajo el parámetro bot_codes
en el siguiente formato: "client_id client_secret user_agent"
como elementos de la lista separados por ,
.python3 -m pip install -r ./preprocess_requirements.txt
python3 ./pre_processing/scraping/questions/scrape_questions.py
. Lanza un script que raspa los subreddits secuencialmente hasta su inicio y almacena los envíos como objetos JSON en /pre_processing/scraping/questions/scraped_questions
. Luego divide los envíos extraídos en tantas partes iguales como instancias registradas de bots.bot_codes
, podemos comenzar a eliminar los comentarios utilizando los archivos de envío particionados creados al eliminar los envíos. Usando el siguiente comando: python3 ./pre_processing/scraping/comments/scrape_comments.py
se generan múltiples procesos que recuperan flujos de comentarios simultáneamente.python3 ./pre_processing/db_insertion/insertion.py
. Inserta las publicaciones y comentarios asociados en mongo.python3 ./post_processing/post_processing.py
. Además de limpiar, también agrega emojis a cada objeto enviado (este comportamiento es configurable).python3 ./index/build_index.py
. De forma predeterminada, crea un IDMap, Flat
, pero se puede configurar a través de /config
./mongo_dump
. Utilice el siguiente comando en el directorio raíz para crear un volcado de base de datos. mongodump --db database_name(default: red) --collection collection_name(default: questions) -o ./mongo_dump
.python3 -m pip install -r ./inference_requirements.txt
gunicorn -c ./gunicorn_config.py server:app
demo_mode
en True
en /config
.docker-compose build
docker-compose up
Este proyecto tiene la licencia Apache License Versión 2.0.