Re-Search は、Google Scholar と同様に、オープンソース データセットや学術研究論文の検索に使用できる学術検索エンジンです。これは、エディンバラ大学のデータ サイエンスのためのテキスト テクノロジー コースのコースワークの一部として構築されました。
?このプロジェクトは、同コースの学生 250 名 / 50 グループ以上の中から最優秀プロジェクト賞も受賞しました。
再検索では、TF-IDF、BM25、ScaNN の 3 つの異なるランキング アルゴリズムを使用して、公開されているデータセットや研究論文を検索できます。また、デフォルトの検索タイプに加えて、著者検索 (データポイントで許可されている場合)、フレーズ検索、および近接検索もサポートします。
Re-Search はフロントエンドに React を使用し、バックエンドは Flask でサポートされ、データを MongoDB データベースに保存します。 ScaNN アルゴリズムは Linux サーバー上でのみ実行されるため、別のマイクロサービスがあります。分散キャッシュには Redis を使用しますが、分散キャッシュなしで動作する LRU キャッシュ実装も提供します。 Google Cloud Platform の App Engine を使用して負荷分散と水平スケーラビリティを提供しました。
npm install
およびpip install -r requirements.txt
を使用して React と Python の依存関係をインストールします。npm start
とflask run
で実行します。sudo service mongod start
を使用して MongoDB データベース (リポジトリ内ではない) を実行します。 prod_*.py
ファイルを使用してwaitress
を使用して本番環境でバックエンド ファイルを実行できますが、現時点では、アプリはスケーラビリティを提供したり、データを安全に転送したりするように構成されていません。
夏には間もなく SMASH Research Group のサーバーでこのプロジェクトを公開する予定です。それまでは、Leo/Yuto に連絡してデータベース アクセスをリクエストできます。
Mozilla パブリック ライセンス 2.0 ©️ 再調査チーム