kroomsa
1.0.0
好奇者的搜尋引擎。它是一種搜尋演算法,旨在透過在會話期間向用戶展示相關但有趣的內容來吸引用戶。
您網站中實施的搜尋演算法極大地影響了訪客的參與度。良好的實作可以顯著減少每次查詢對 Google 等標準搜尋引擎的依賴,從而提高參與度。傳統方法會查看查詢中的術語或短語,以根據語法配對查找相關內容。 Kroomsa 使用語意配對來尋找與您的查詢相關的內容。有一篇部落格文章詳細介紹了克魯姆薩的動機及其技術方面。
python3 ./setup.py
。/vectorizer
目錄中。bot_codes
參數下的/config
: "client_id client_secret user_agent"
作為由,
分隔的列表元素。python3 -m pip install -r ./preprocess_requirements.txt
python3 ./pre_processing/scraping/questions/scrape_questions.py
。它啟動一個腳本,該腳本會按順序抓取 subreddits 直到其開始,並將提交內容作為 JSON 物件儲存在/pre_processing/scraping/questions/scraped_questions
中。然後,它將抓取的提交內容劃分為與註冊的機器人實例數量相同的部分。bot_codes
填充配置後,我們可以開始使用在抓取提交時建立的分區提交檔案來抓取評論。使用下列指令: python3 ./pre_processing/scraping/comments/scrape_comments.py
會產生多個進程,同時取得評論流。python3 ./pre_processing/db_insertion/insertion.py
。它將帖子和相關評論插入 mongo。python3 ./post_processing/post_processing.py
。除了清理之外,它還為每個提交對象添加表情符號(此行為是可配置的)。python3 ./index/build_index.py
。預設情況下,它會建立一個詳盡的IDMap, Flat
索引,但可以透過/config
進行設定。/mongo_dump
中需要資料庫轉儲。在根目錄中使用以下指令建立資料庫轉儲。 mongodump --db database_name(default: red) --collection collection_name(default: questions) -o ./mongo_dump
.python3 -m pip install -r ./inference_requirements.txt
gunicorn -c ./gunicorn_config.py server:app
/config
中將demo_mode
設定為True
。docker-compose build
docker-compose up
該項目已獲得 Apache License Version 2.0 的許可