Re-Search es un motor de búsqueda académico que se puede utilizar para buscar conjuntos de datos de código abierto y artículos de investigación académica similares a Google Scholar. Esto se creó como parte de un trabajo de curso para el curso Tecnologías de texto para ciencia de datos de la Universidad de Edimburgo.
? Este proyecto también recibió el Premio al Mejor Proyecto entre 250 estudiantes/más de 50 grupos para el mismo curso.
Re-Search le permite buscar conjuntos de datos y artículos de investigación disponibles públicamente utilizando tres algoritmos de clasificación diferentes: TF-IDF, BM25 y ScaNN. También admite búsqueda de autor (dondequiera que el punto de datos lo permita), búsqueda de frases y búsqueda de proximidad junto con su tipo de búsqueda predeterminado.
Re-Search utiliza React para el frontend con el backend soportado por Flask y almacena datos en una base de datos MongoDB. Tiene un microservicio independiente para el algoritmo ScaNN, ya que sólo se ejecuta en servidores Linux. Usamos Redis para el caché distribuido pero también proporcionamos una implementación de caché LRU que funciona sin almacenamiento en caché distribuido. Proporcionamos equilibrio de carga y escalabilidad horizontal con App Engine de Google Cloud Platform.
npm install
y pip install -r requirements.txt
npm start
y flask run
respectivamente.sudo service mongod start
. Puede ejecutar los archivos backend en producción con waitress
usando los archivos prod_*.py
; sin embargo, actualmente, la aplicación no está configurada para proporcionar escalabilidad o transferir datos de forma segura.
Pronto publicaremos este proyecto en los servidores de SMASH Research Group durante el verano. Hasta entonces, puedes solicitar acceso a la base de datos poniéndote en contacto con Leo/Yuto.
Licencia pública de Mozilla 2.0 ©️ El equipo de investigación