por Neel Mehta, Universidad de Harvard
SearchBetter le permite crear motores de búsqueda potentes, rápidos y directos para cualquier conjunto de datos, sin importar cuán pequeño o grande sea. También ofrece reescritura de consultas integrada, que utiliza PNL para ayudar a los motores de búsqueda a encontrar contenido semánticamente relacionado con el término de búsqueda del usuario.
Por ejemplo, una búsqueda de machine learning
podría arrojar solo resultados para elementos que contengan las palabras "aprendizaje automático". Pero con la reescritura de consultas, se obtendrían resultados no solo para machine learning
sino también, por ejemplo, para artificial intelligence
y neural networks
.
SearchBetter le permite potenciar sus motores de búsqueda con el mínimo esfuerzo. Es especialmente útil si tiene un conjunto de datos pequeño para buscar, o si no tiene el tiempo o los datos para crear algoritmos de reescritura de consultas sofisticados y personalizados.
Para colocar este módulo en su aplicación:
pip install searchbetter
Para fines de investigación y análisis más avanzados, utilice la demostración interactiva para prepararse.
¡Pruebe la demostración interactiva!
Para una inmersión verdaderamente rápida y profunda en SearchBetter (no se requiere configuración), use:
from searchbetter import rewriter
query_rewriter = rewriter . WikipediaRewriter ()
query_rewriter . rewrite ( 'biochemistry' )
La documentación está disponible en línea en http://searchbetter.readthedocs.io/.
Para crear los documentos usted mismo utilizando Sphinx:
cd docs
make html
open _build/html/index.html
Algunos de estos datos son propiedad de Harvard y HarvardX. Otra información, como la API de Udacity y el volcado de Wikipedia, está abierta al público.
Nombre | URL | Cómo nombrar el archivo |
---|---|---|
API de udacidad | https://www.udacity.com/public-api/v0/courses | udacity-api.json |
Volcado de Wikipedia | Vea abajo | wikiclean8 |
cursos edX | Propiedad | Master CourseListings - edX.csv |
datos de DARDO | Propiedad | corpus_HarvardX_LatestCourses_based_on_2016-10-18.csv |
Descargue y descomprima el conjunto de datos enwik8
desde http://www.mattmahoney.net/dc/enwik8.zip. Luego ejecuta:
perl processing-scripts/wiki-clean.pl enwik8 > wikiclean8
Esto puede tardar uno o dos minutos en ejecutarse.
SearchBetter fue diseñado como parte de un proyecto de investigación de Neel Mehta, Daniel Seaton y Dustin Tingley para CS 91r de Harvard, un curso de investigación para créditos.
Fue diseñado originalmente para Harvard DART, una herramienta que ayuda a los educadores a reutilizar los activos de HarvardX, como videos y ejercicios, en sus cursos en línea o fuera de línea. SearchBetter es especialmente útil para los MOOC, que a menudo tienen corpus pequeños y tienen que lidiar con muchas consultas poco comunes (después de todo, los estudiantes buscarán los términos menos familiares). Aún así, SearchBetter se ha hecho lo suficientemente general como para que pueda usarse con cualquier corpus o cualquier buscador.