ニール・メータ著、ハーバード大学
SearchBetter を使用すると、規模の大小に関係なく、あらゆるデータセットに対して強力で高速なドロップイン検索エンジンを作成できます。また、NLP を使用して、検索エンジンがユーザーの検索語に意味的に関連するコンテンツを見つけられるようにする組み込みのクエリ書き換えも提供します。
たとえば、 machine learning
を検索すると、「機械学習」という単語を含む項目の結果のみが返される場合があります。しかし、クエリを書き換えると、 machine learning
だけでなく、 artificial intelligence
やneural networks
などの結果も得られるようになります。
SearchBetter を使用すると、最小限の労力で検索エンジンを強化できます。これは、検索対象のデータセットが小さい場合、または複雑な特注のクエリ書き換えアルゴリズムを作成するための時間やデータがない場合に特に便利です。
このモジュールをアプリにドロップするには:
pip install searchbetter
より高度な分析や研究を目的とする場合は、インタラクティブなデモを使用してセットアップを行ってください。
インタラクティブなデモをお試しください。
SearchBetter を本当に簡単に使用するには (セットアップは必要ありません)、以下を使用します。
from searchbetter import rewriter
query_rewriter = rewriter . WikipediaRewriter ()
query_rewriter . rewrite ( 'biochemistry' )
ドキュメントは http://searchbetter.readthedocs.io/ からオンラインで入手できます。
Sphinx を使用してドキュメントを自分で構築するには:
cd docs
make html
open _build/html/index.html
このデータの一部はハーバード大学と HarvardX の専有物です。 Udacity API や Wikipedia ダンプなどの他の情報も公開されています。
名前 | URL | ファイル名を何にするか |
---|---|---|
Udacity API | https://www.udacity.com/public-api/v0/courses | udacity-api.json |
ウィキペディアのダンプ | 以下を参照してください | wikiclean8 |
edX コース | 独自の | Master CourseListings - edX.csv |
DARTデータ | 独自の | corpus_HarvardX_LatestCourses_based_on_2016-10-18.csv |
enwik8
データセットを http://www.mattmahoney.net/dc/enwik8.zip からダウンロードして解凍します。次に、次を実行します。
perl processing-scripts/wiki-clean.pl enwik8 > wikiclean8
この実行には 1 ~ 2 分かかる場合があります。
SearchBetter は、単位取得コースであるハーバード大学の CS 91r のための Neel Mehta、Daniel Seaton、Dustin Tingley による研究プロジェクトの一環として設計されました。
これは元々、教育者がオンラインまたはオフラインのコースでビデオや演習などの HarvardX アセットを再利用するのに役立つツールである Harvard DART 用に設計されました。 SearchBetter は、コーパスが小さいことが多く、多くの珍しいクエリを処理する必要がある MOOC に特に役立ちます (結局のところ、学生は最も馴染みのない用語を検索することになります)。それでも、SearchBetter は十分に汎用化されているので、任意のコーパスまたは任意の検索エンジン。