von Neel Mehta, Harvard University
Mit SearchBetter können Sie leistungsstarke, schnelle und integrierte Suchmaschinen für jeden Datensatz erstellen, egal wie klein oder groß er ist. Es bietet außerdem eine integrierte Abfrageumschreibung, die NLP verwendet, um Ihren Suchmaschinen dabei zu helfen, semantisch verwandte Inhalte zum Suchbegriff des Benutzers zu finden.
Beispielsweise liefert eine Suche nach machine learning
möglicherweise nur Ergebnisse für Elemente, die das Wort „maschinelles Lernen“ enthalten. Mit dem Umschreiben von Abfragen würden Sie jedoch nicht nur Ergebnisse für machine learning
erhalten, sondern beispielsweise auch für artificial intelligence
und neural networks
.
Mit SearchBetter können Sie Ihre Suchmaschinen mit minimalem Aufwand auf Vordermann bringen. Dies ist besonders nützlich, wenn Sie einen kleinen Datensatz zum Durchsuchen haben oder wenn Sie nicht über die Zeit oder die Daten verfügen, um ausgefallene, maßgeschneiderte Algorithmen zum Umschreiben von Abfragen zu erstellen.
So fügen Sie dieses Modul in Ihre App ein:
pip install searchbetter
Für fortgeschrittenere Analyse- und Forschungszwecke nutzen Sie die interaktive Demo, um sich einzurichten!
Probieren Sie die interaktive Demo aus!
Für einen wirklich schnellen Einstieg in SearchBetter (keine Einrichtung erforderlich) verwenden Sie:
from searchbetter import rewriter
query_rewriter = rewriter . WikipediaRewriter ()
query_rewriter . rewrite ( 'biochemistry' )
Die Dokumentation ist online unter http://searchbetter.readthedocs.io/ verfügbar.
So erstellen Sie die Dokumente selbst mit Sphinx:
cd docs
make html
open _build/html/index.html
Einige dieser Daten sind Eigentum von Harvard und HarvardX. Andere Informationen, wie die Udacity-API und der Wikipedia-Dump, sind für die Öffentlichkeit zugänglich.
Name | URL | Wie soll die Datei benannt werden? |
---|---|---|
Udacity-API | https://www.udacity.com/public-api/v0/courses | udacity-api.json |
Wikipedia-Dump | Siehe unten | wikiclean8 |
edX-Kurse | Proprietär | Master CourseListings - edX.csv |
DART-Daten | Proprietär | corpus_HarvardX_LatestCourses_based_on_2016-10-18.csv |
Laden Sie den enwik8
Datensatz von http://www.mattmahoney.net/dc/enwik8.zip herunter und entpacken Sie ihn. Führen Sie dann Folgendes aus:
perl processing-scripts/wiki-clean.pl enwik8 > wikiclean8
Die Ausführung kann ein oder zwei Minuten dauern.
SearchBetter wurde im Rahmen eines Forschungsprojekts von Neel Mehta, Daniel Seaton und Dustin Tingley für Harvards CS 91r, einen Forschungskurs für Kreditpunkte, entwickelt.
Es wurde ursprünglich für Harvard DART entwickelt, ein Tool, das Pädagogen dabei hilft, HarvardX-Assets wie Videos und Übungen in ihren Online- oder Offline-Kursen wiederzuverwenden. SearchBetter ist besonders nützlich für MOOCs, die oft über kleine Korpusse verfügen und viele ungewöhnliche Abfragen bearbeiten müssen (Schüler suchen schließlich nach den unbekanntesten Begriffen). Dennoch ist SearchBetter so universell einsetzbar, dass es verwendet werden kann jedes Korpus oder jede Suchmaschine.