작성자: Neel Mehta, 하버드 대학교
SearchBetter를 사용하면 규모에 상관없이 모든 데이터 세트에 대해 강력하고 빠른 드롭인 검색 엔진을 만들 수 있습니다. 또한 NLP를 사용하여 검색 엔진이 사용자의 검색어와 의미적으로 관련된 콘텐츠를 찾는 데 도움이 되는 내장된 쿼리 재작성을 제공합니다.
예를 들어 machine learning
검색하면 "기계 학습"이라는 단어가 포함된 항목에 대한 결과만 반환될 수 있습니다. 그러나 쿼리 재작성을 사용하면 machine learning
뿐만 아니라 artificial intelligence
및 neural networks
대한 결과도 얻을 수 있습니다.
SearchBetter를 사용하면 최소한의 노력으로 검색 엔진을 강화할 수 있습니다. 검색할 데이터 세트가 작거나 멋진 맞춤형 쿼리 재작성 알고리즘을 만들 시간이나 데이터가 없는 경우 특히 유용합니다.
이 모듈을 앱에 추가하려면:
pip install searchbetter
보다 고급 분석 및 연구 목적을 위해 대화형 데모를 사용하여 직접 설정해 보세요!
대화형 데모를 사용해 보세요!
SearchBetter에 대해 정말 빠르고 간단하게 알아보려면(설정 필요 없음) 다음을 사용하세요.
from searchbetter import rewriter
query_rewriter = rewriter . WikipediaRewriter ()
query_rewriter . rewrite ( 'biochemistry' )
문서는 http://searchbetter.readthedocs.io/에서 온라인으로 볼 수 있습니다.
Sphinx를 사용하여 직접 문서를 작성하려면:
cd docs
make html
open _build/html/index.html
이 데이터 중 일부는 Harvard 및 HarvardX의 소유입니다. Udacity API 및 Wikipedia 덤프와 같은 기타 정보는 대중에게 공개됩니다.
이름 | URL | 파일 이름 지정 |
---|---|---|
유다시티 API | https://www.udacity.com/public-api/v0/courses | udacity-api.json |
위키피디아 덤프 | 아래를 참조하세요 | wikiclean8 |
edX 강좌 | 소유권 | Master CourseListings - edX.csv |
DART 데이터 | 소유권 | corpus_HarvardX_LatestCourses_based_on_2016-10-18.csv |
http://www.mattmahoney.net/dc/enwik8.zip에서 enwik8
데이터 세트를 다운로드하고 압축을 풉니다. 그런 다음 다음을 실행합니다.
perl processing-scripts/wiki-clean.pl enwik8 > wikiclean8
실행하는 데 1~2분 정도 걸릴 수 있습니다.
SearchBetter는 학점 과정을 위한 연구인 Harvard CS 91r을 위한 Neel Mehta, Daniel Seaton 및 Dustin Tingley의 연구 프로젝트의 일부로 설계되었습니다.
원래는 교육자가 온라인 또는 오프라인 과정에서 비디오 및 연습 문제와 같은 HarvardX 자산을 재사용하는 데 도움이 되는 도구인 Harvard DART용으로 설계되었습니다. SearchBetter는 말뭉치 수가 적고 일반적이지 않은 쿼리를 많이 처리해야 하는 MOOC에 특히 유용합니다(결국 학생들은 가장 익숙하지 않은 용어를 검색하게 됩니다). 그럼에도 불구하고 SearchBetter는 다음과 함께 사용할 수 있을 만큼 충분히 범용적으로 만들어졌습니다. 모든 말뭉치나 검색 엔진.