Нил Мехта, Гарвардский университет
SearchBetter позволяет создавать мощные, быстрые и удобные поисковые системы для любого набора данных, независимо от того, насколько он мал или велик. Он также предлагает встроенную функцию переписывания запросов, которая использует NLP, чтобы помочь вашим поисковым системам находить семантически связанный контент с поисковым запросом пользователя.
Например, поиск по machine learning
может возвращать результаты только для элементов, содержащих слова «машинное обучение». Но переписав запросы, вы получите результаты не только для machine learning
, но и, скажем, для artificial intelligence
и neural networks
.
SearchBetter позволяет вам активизировать поисковые системы с минимальными усилиями. Это особенно полезно, если у вас есть небольшой набор данных для поиска или у вас нет времени или данных для создания необычных алгоритмов переписывания запросов.
Чтобы добавить этот модуль в свое приложение:
pip install searchbetter
Для более сложного анализа и исследований воспользуйтесь интерактивной демонстрацией, чтобы настроиться!
Попробуйте интерактивную демо-версию!
Для действительно быстрого погружения в SearchBetter (настройка не требуется) используйте:
from searchbetter import rewriter
query_rewriter = rewriter . WikipediaRewriter ()
query_rewriter . rewrite ( 'biochemistry' )
Документация доступна онлайн по адресу http://searchbetter.readthedocs.io/.
Чтобы создать документы самостоятельно с помощью Sphinx:
cd docs
make html
open _build/html/index.html
Некоторые из этих данных являются собственностью Гарварда и HarvardX. Другая информация, такая как Udacity API и дамп Википедии, открыта для общественности.
Имя | URL-адрес | Как назвать файл |
---|---|---|
Udacity API | https://www.udacity.com/public-api/v0/courses | udacity-api.json |
свалка википедии | См. ниже | wikiclean8 |
курсы edX | Собственный | Master CourseListings - edX.csv |
Данные DART | Собственный | corpus_HarvardX_LatestCourses_based_on_2016-10-18.csv |
Загрузите и разархивируйте набор данных enwik8
с http://www.mattmahoney.net/dc/enwik8.zip. Затем запустите:
perl processing-scripts/wiki-clean.pl enwik8 > wikiclean8
Это может занять минуту или две.
SearchBetter был разработан в рамках исследовательского проекта Нила Мехты, Дэниела Ситона и Дастина Тингли для Гарвардского курса CS 91r, исследования для кредитного курса.
Первоначально он был разработан для Harvard DART, инструмента, который помогает преподавателям повторно использовать ресурсы HarvardX, такие как видео и упражнения, в своих онлайн- или офлайн-курсах. SearchBetter особенно полезен для МООК, которые часто имеют небольшой корпус и вынуждены иметь дело со многими необычными запросами (в конце концов, студенты будут искать самые незнакомые термины). Тем не менее, SearchBetter сделан достаточно универсальным, чтобы его можно было использовать с любой корпус или любая поисковая система.