par Neel Mehta, Université Harvard
SearchBetter vous permet de créer des moteurs de recherche puissants, rapides et intégrés pour n'importe quel ensemble de données, quelle que soit sa taille. Il propose également une réécriture de requêtes intégrée, qui utilise le NLP pour aider vos moteurs de recherche à trouver du contenu sémantiquement lié au terme de recherche de l'utilisateur.
Par exemple, une recherche sur machine learning
peut renvoyer uniquement des résultats pour les éléments contenant les mots « apprentissage automatique ». Mais avec la réécriture de requêtes, vous obtiendrez des résultats non seulement pour machine learning
mais aussi, par exemple, pour artificial intelligence
et neural networks
.
SearchBetter vous permet de dynamiser vos moteurs de recherche avec un minimum d'effort. C'est particulièrement utile si vous disposez d'un petit ensemble de données sur lequel effectuer une recherche, ou si vous n'avez pas le temps ou les données nécessaires pour créer des algorithmes sophistiqués de réécriture de requêtes sur mesure.
Pour déposer ce module dans votre application :
pip install searchbetter
À des fins d’analyse et de recherche plus avancées, utilisez la démo interactive pour vous installer !
Essayez la démo interactive !
Pour une plongée vraiment rapide dans SearchBetter (aucune configuration requise), utilisez :
from searchbetter import rewriter
query_rewriter = rewriter . WikipediaRewriter ()
query_rewriter . rewrite ( 'biochemistry' )
La documentation est disponible en ligne sur http://searchbetter.readthedocs.io/.
Pour créer vous-même les documents à l'aide de Sphinx :
cd docs
make html
open _build/html/index.html
Certaines de ces données sont la propriété de Harvard et de HarvardX. D'autres informations, comme l'API Udacity et le dump Wikipedia, sont ouvertes au public.
Nom | URL | Comment nommer le fichier |
---|---|---|
API Udacity | https://www.udacity.com/public-api/v0/courses | udacity-api.json |
Décharge Wikipédia | Voir ci-dessous | wikiclean8 |
cours edX | Propriétaire | Master CourseListings - edX.csv |
Données DART | Propriétaire | corpus_HarvardX_LatestCourses_based_on_2016-10-18.csv |
Téléchargez et décompressez l'ensemble de données enwik8
depuis http://www.mattmahoney.net/dc/enwik8.zip. Puis exécutez :
perl processing-scripts/wiki-clean.pl enwik8 > wikiclean8
Cela peut prendre une minute ou deux.
SearchBetter a été conçu dans le cadre d'un projet de recherche de Neel Mehta, Daniel Seaton et Dustin Tingley pour le CS 91r de Harvard, un cours de recherche crédité.
Il a été conçu à l'origine pour Harvard DART, un outil qui aide les enseignants à réutiliser les ressources HarvardX telles que les vidéos et les exercices dans leurs cours en ligne ou hors ligne. SearchBetter est particulièrement utile pour les MOOC, qui comportent souvent de petits corpus et doivent traiter de nombreuses requêtes peu courantes (les étudiants rechercheront les termes les moins familiers, après tout). Pourtant, SearchBetter a été suffisamment généralisé pour pouvoir être utilisé avec n’importe quel corpus ou n’importe quel moteur de recherche.