Re-Search ist eine akademische Suchmaschine, die ähnlich wie Google Scholar zum Durchsuchen von Open-Source-Datensätzen und wissenschaftlichen Forschungsarbeiten verwendet werden kann. Dies wurde im Rahmen einer Kursarbeit für den Kurs Text Technologies for Data Science der Universität Edinburgh erstellt.
? Dieses Projekt erhielt außerdem den Best Project Award unter 250 Studenten/über 50 Gruppen für denselben Kurs.
Mit Re-Search können Sie mithilfe von drei verschiedenen Ranking-Algorithmen – TF-IDF, BM25 und ScaNN – nach öffentlich verfügbaren Datensätzen und Forschungsarbeiten suchen. Es unterstützt neben dem Standardsuchtyp auch die Autorensuche (wo immer der Datenpunkt dies zulässt), die Phrasensuche und die Näherungssuche.
Re-Search verwendet React für das Frontend, wobei das Backend von Flask unterstützt wird, und speichert Daten in einer MongoDB-Datenbank. Es verfügt über einen separaten Microservice für den ScaNN-Algorithmus, da dieser nur auf Linux-Servern läuft. Wir verwenden Redis für den verteilten Cache, bieten aber auch eine LRU-Cache-Implementierung an, die ohne verteiltes Caching funktioniert. Wir haben mit der App Engine der Google Cloud Platform für Lastausgleich und horizontale Skalierbarkeit gesorgt.
npm install
und pip install -r requirements.txt
npm start
und flask run
aus.sudo service mongod start
. Sie können die Backend-Dateien in der Produktion mit waitress
mithilfe der prod_*.py
-Dateien ausführen. Derzeit ist die App jedoch nicht für Skalierbarkeit oder sichere Datenübertragung konfiguriert.
Wir werden dieses Projekt bald im Sommer auf den Servern der SMASH Research Group veröffentlichen. Bis dahin können Sie den Datenbankzugriff beantragen, indem Sie sich an Leo/Yuto wenden.
Mozilla Public License 2.0 ©️ Das Re-Search-Team