作者:尼爾梅塔,哈佛大學
SearchBetter 可讓您為任何資料集(無論大小)建立強大、快速且嵌入式的搜尋引擎。它還提供內建查詢重寫,使用 NLP 幫助您的搜尋引擎找到與用戶搜尋字詞語義相關的內容。
例如,搜尋machine learning
可能只會傳回包含「機器學習」一詞的項目的結果。但透過查詢重寫,您不僅可以獲得machine learning
的結果,還可以獲得artificial intelligence
和neural networks
結果。
SearchBetter 讓您以最少的努力增強您的搜尋引擎。如果您有一個小資料集可供搜索,或者您沒有時間或資料來製作精美的客製化查詢重寫演算法,那麼它特別有用。
將此模組放入您的應用程式中:
pip install searchbetter
出於更高級的分析和研究目的,請使用互動式演示進行設定!
嘗試互動式演示!
要真正快速深入地了解 SearchBetter(無需設定),請使用:
from searchbetter import rewriter
query_rewriter = rewriter . WikipediaRewriter ()
query_rewriter . rewrite ( 'biochemistry' )
文件可線上取得:http://searchbetter.readthedocs.io/。
要使用 Sphinx 自行建置文件:
cd docs
make html
open _build/html/index.html
其中一些數據歸Harvard 和HarvardX 專有。其他信息,如 Udacity API 和維基百科轉儲,是向公眾開放的。
姓名 | 網址 | 文件命名什麼 |
---|---|---|
優達學城 API | https://www.udacity.com/public-api/v0/courses | udacity-api.json |
維基百科轉儲 | 見下文 | wikiclean8 |
edX 課程 | 所有權 | Master CourseListings - edX.csv |
DART 數據 | 所有權 | corpus_HarvardX_LatestCourses_based_on_2016-10-18.csv |
從 http://www.mattmahoney.net/dc/enwik8.zip 下載並解壓縮enwik8
資料集。然後運行:
perl processing-scripts/wiki-clean.pl enwik8 > wikiclean8
這可能需要一兩分鐘才能運行。
SearchBetter 是 Neel Mehta、Daniel Seaton 和 Dustin Tingley 為哈佛大學 CS 91r(一項學分課程研究)研究計畫的一部分而設計的。
它最初是為哈佛 DART 設計的,哈佛 DART 是一種幫助教育工作者在線上或離線課程中重複使用哈佛X 資產(例如影片和練習)的工具。 SearchBetter 對於 MOOC 特別有用,因為 MOOC 的語料庫通常較小,並且必須處理許多不常見的查詢(畢竟,學生會搜索最不熟悉的術語。)不過,SearchBetter 已經變得足夠通用,可以與任何語料庫或任何搜索引擎。