Поисковая система для любознательных. Это алгоритм поиска, предназначенный для привлечения пользователей, предоставляя им релевантный, но интересный контент во время сеанса.
Алгоритм поиска, реализованный на вашем сайте, сильно влияет на вовлеченность посетителей. Достойная реализация может значительно снизить зависимость от стандартных поисковых систем, таких как Google, для каждого запроса, тем самым увеличивая вовлеченность. Традиционные методы рассматривают термины или фразы в вашем запросе, чтобы найти релевантный контент на основе синтаксического соответствия. Kroomsa использует семантическое сопоставление для поиска контента, соответствующего вашему запросу. В блоге есть сообщение, в котором подробно рассказывается о мотивации Крумсы и ее технических аспектах.
python3 ./setup.py
в корневом каталоге./vectorizer
./config
в разделе bot_codes
в следующем формате: "client_id client_secret user_agent"
как элементы списка, разделенные символами ,
.python3 -m pip install -r ./preprocess_requirements.txt
python3 ./pre_processing/scraping/questions/scrape_questions.py
. Он запускает скрипт, который последовательно очищает субреддиты до их создания и сохраняет отправленные материалы как объекты JSON в /pre_processing/scraping/questions/scraped_questions
. Затем он делит собранные материалы на столько равных частей, сколько зарегистрировано экземпляров ботов.bot_codes
мы можем начать очистку комментариев, используя секционированные файлы отправленных материалов, созданные во время очистки отправленных материалов. С помощью следующей команды: python3 ./pre_processing/scraping/comments/scrape_comments.py
создается несколько процессов, которые одновременно извлекают потоки комментариев.python3 ./pre_processing/db_insertion/insertion.py
. Он вставляет сообщения и связанные с ними комментарии в формате mongo.python3 ./post_processing/post_processing.py
. Помимо очистки, он также добавляет смайлы к каждому объекту отправки (это поведение можно настроить).python3 ./index/build_index.py
. По умолчанию он создает полный индекс IDMap, Flat
но его можно настроить через /config
./mongo_dump
. Используйте следующую команду в корневом каталоге, чтобы создать дамп базы данных. mongodump --db database_name(default: red) --collection collection_name(default: questions) -o ./mongo_dump
.python3 -m pip install -r ./inference_requirements.txt
gunicorn -c ./gunicorn_config.py server:app
demo_mode
значение True
в /config
.docker-compose build
docker-compose up
Этот проект распространяется по лицензии Apache версии 2.0.