oleh Neel Mehta, Universitas Harvard
SearchBetter memungkinkan Anda membuat mesin pencari yang kuat, cepat, dan drop-in untuk kumpulan data apa pun, tidak peduli seberapa kecil atau besarnya. Ia juga menawarkan penulisan ulang kueri bawaan, yang menggunakan NLP untuk membantu mesin pencari Anda menemukan konten yang terkait secara semantik dengan istilah pencarian pengguna.
Misalnya, penelusuran untuk machine learning
mungkin hanya memberikan hasil untuk item yang mengandung kata "pembelajaran mesin". Namun dengan penulisan ulang kueri, Anda akan mendapatkan hasil tidak hanya untuk machine learning
tetapi juga, misalnya, artificial intelligence
dan neural networks
.
SearchBetter memungkinkan Anda meningkatkan mesin pencari Anda dengan sedikit usaha. Ini sangat berguna jika Anda memiliki kumpulan data kecil untuk dicari, atau jika Anda tidak punya waktu atau data untuk membuat algoritme penulisan ulang kueri yang dirancang khusus.
Untuk memasukkan modul ini ke dalam aplikasi Anda:
pip install searchbetter
Untuk tujuan analisis dan penelitian lebih lanjut, gunakan demo interaktif untuk menyiapkan diri Anda!
Cobalah demo interaktif!
Untuk menyelami SearchBetter dengan benar-benar cepat dan kotor (tidak perlu penyiapan), gunakan:
from searchbetter import rewriter
query_rewriter = rewriter . WikipediaRewriter ()
query_rewriter . rewrite ( 'biochemistry' )
Dokumentasi tersedia online di http://searchbetter.readthedocs.io/.
Untuk membuat dokumen sendiri menggunakan Sphinx:
cd docs
make html
open _build/html/index.html
Beberapa dari data ini adalah hak milik Harvard dan HarvardX. Info lainnya, seperti Udacity API dan dump Wikipedia, terbuka untuk umum.
Nama | URL | Apa nama filenya |
---|---|---|
API Udacity | https://www.udacity.com/public-api/v0/courses | udacity-api.json |
sampah Wikipedia | Lihat di bawah | wikiclean8 |
kursus edX | Hak milik | Master CourseListings - edX.csv |
data DART | Hak milik | corpus_HarvardX_LatestCourses_based_on_2016-10-18.csv |
Unduh dan ekstrak kumpulan data enwik8
dari http://www.mattmahoney.net/dc/enwik8.zip. Kemudian jalankan:
perl processing-scripts/wiki-clean.pl enwik8 > wikiclean8
Ini mungkin memerlukan waktu satu atau dua menit untuk dijalankan.
SearchBetter dirancang sebagai bagian dari proyek penelitian oleh Neel Mehta, Daniel Seaton, dan Dustin Tingley untuk CS 91r Harvard, sebuah penelitian untuk kursus kredit.
Awalnya dirancang untuk Harvard DART, sebuah alat yang membantu pendidik menggunakan kembali aset HarvardX seperti video dan latihan dalam kursus online atau offline mereka. SearchBetter sangat berguna untuk MOOC, yang seringkali memiliki korpus kecil dan harus menangani banyak pertanyaan yang tidak umum (bagaimanapun juga, siswa akan mencari istilah yang paling asing.) Namun, SearchBetter telah dibuat cukup untuk tujuan umum sehingga dapat digunakan dengan korpus atau mesin pencari apa pun.