作者:尼尔·梅塔,哈佛大学
SearchBetter 可让您为任何数据集(无论大小)创建强大、快速且嵌入式的搜索引擎。它还提供内置查询重写,使用 NLP 帮助您的搜索引擎找到与用户搜索词语义相关的内容。
例如,搜索machine learning
可能只返回包含“机器学习”一词的项目的结果。但通过查询重写,您不仅可以获得machine learning
的结果,还可以获得artificial intelligence
和neural networks
结果。
SearchBetter 让您以最小的努力增强您的搜索引擎。如果您有一个小数据集可供搜索,或者您没有时间或数据来制作精美的定制查询重写算法,那么它特别有用。
将此模块放入您的应用程序中:
pip install searchbetter
出于更高级的分析和研究目的,请使用交互式演示进行设置!
尝试交互式演示!
要真正快速深入地了解 SearchBetter(无需设置),请使用:
from searchbetter import rewriter
query_rewriter = rewriter . WikipediaRewriter ()
query_rewriter . rewrite ( 'biochemistry' )
文档可在线获取:http://searchbetter.readthedocs.io/。
要使用 Sphinx 自行构建文档:
cd docs
make html
open _build/html/index.html
其中一些数据归Harvard 和HarvardX 专有。其他信息,如 Udacity API 和维基百科转储,是向公众开放的。
姓名 | 网址 | 文件命名什么 |
---|---|---|
优达学城 API | https://www.udacity.com/public-api/v0/courses | udacity-api.json |
维基百科转储 | 见下文 | wikiclean8 |
edX 课程 | 所有权 | Master CourseListings - edX.csv |
DART 数据 | 所有权 | corpus_HarvardX_LatestCourses_based_on_2016-10-18.csv |
从 http://www.mattmahoney.net/dc/enwik8.zip 下载并解压enwik8
数据集。然后运行:
perl processing-scripts/wiki-clean.pl enwik8 > wikiclean8
这可能需要一两分钟才能运行。
SearchBetter 是 Neel Mehta、Daniel Seaton 和 Dustin Tingley 为哈佛大学 CS 91r(一项学分课程研究)研究项目的一部分而设计的。
它最初是为哈佛 DART 设计的,哈佛 DART 是一种帮助教育工作者在在线或离线课程中重用哈佛X 资产(例如视频和练习)的工具。 SearchBetter 对于 MOOC 特别有用,因为 MOOC 的语料库通常较小,并且必须处理许多不常见的查询(毕竟,学生会搜索最不熟悉的术语。)不过,SearchBetter 已经变得足够通用,可以与任何语料库或任何搜索引擎。