kroomsa
1.0.0
好奇者的搜索引擎。它是一种搜索算法,旨在通过在会话期间向用户展示相关但有趣的内容来吸引用户。
您网站中实施的搜索算法极大地影响了访问者的参与度。良好的实施可以显着减少每次查询对 Google 等标准搜索引擎的依赖,从而提高参与度。传统方法会查看查询中的术语或短语,以根据语法匹配查找相关内容。 Kroomsa 使用语义匹配来查找与您的查询相关的内容。有一篇博客文章详细介绍了克鲁姆萨的动机及其技术方面。
python3 ./setup.py
。/vectorizer
目录中。bot_codes
参数下的/config
: "client_id client_secret user_agent"
作为由,
分隔的列表元素。python3 -m pip install -r ./preprocess_requirements.txt
python3 ./pre_processing/scraping/questions/scrape_questions.py
。它启动一个脚本,该脚本会按顺序抓取 subreddits 直到其开始,并将提交内容作为 JSON 对象存储在/pre_processing/scraping/questions/scraped_questions
中。然后,它将抓取的提交内容划分为与注册的机器人实例数量相同的部分。bot_codes
填充配置后,我们可以开始使用在抓取提交时创建的分区提交文件来抓取评论。使用以下命令: python3 ./pre_processing/scraping/comments/scrape_comments.py
会生成多个进程,同时获取评论流。python3 ./pre_processing/db_insertion/insertion.py
。它将帖子和相关评论插入 mongo。python3 ./post_processing/post_processing.py
。除了清理之外,它还为每个提交对象添加表情符号(此行为是可配置的)。python3 ./index/build_index.py
。默认情况下,它创建一个详尽的IDMap, Flat
索引,但可以通过/config
进行配置。/mongo_dump
中需要数据库转储。在根目录中使用以下命令创建数据库转储。 mongodump --db database_name(default: red) --collection collection_name(default: questions) -o ./mongo_dump
.python3 -m pip install -r ./inference_requirements.txt
gunicorn -c ./gunicorn_config.py server:app
/config
中将demo_mode
设置为True
。docker-compose build
docker-compose up
该项目已获得 Apache License Version 2.0 的许可