por Neel Mehta, Universidade de Harvard
SearchBetter permite que você crie mecanismos de pesquisa poderosos, rápidos e fáceis de usar para qualquer conjunto de dados, não importa quão pequeno ou grande seja. Ele também oferece reescrita de consulta integrada, que usa PNL para ajudar seus mecanismos de pesquisa a encontrar conteúdo semanticamente relacionado ao termo de pesquisa do usuário.
Por exemplo, uma pesquisa por machine learning
só pode retornar resultados de itens que contenham as palavras “aprendizado de máquina”. Mas com a reescrita de consultas, você obteria resultados não apenas para machine learning
, mas também, digamos, para artificial intelligence
e neural networks
.
SearchBetter permite que você potencialize seus mecanismos de pesquisa com o mínimo de esforço. É especialmente útil se você tiver um pequeno conjunto de dados para pesquisar ou se não tiver tempo ou dados para criar algoritmos sofisticados de reescrita de consultas sob medida.
Para colocar este módulo em seu aplicativo:
pip install searchbetter
Para fins de análise e pesquisa mais avançados, use a demonstração interativa para se preparar!
Experimente a demonstração interativa!
Para um mergulho verdadeiramente rápido e direto no SearchBetter (sem necessidade de configuração), use:
from searchbetter import rewriter
query_rewriter = rewriter . WikipediaRewriter ()
query_rewriter . rewrite ( 'biochemistry' )
A documentação está disponível online em http://searchbetter.readthedocs.io/.
Para criar você mesmo os documentos usando o Sphinx:
cd docs
make html
open _build/html/index.html
Alguns desses dados são propriedade de Harvard e HarvardX. Outras informações, como a API Udacity e o despejo da Wikipedia, estão abertas ao público.
Nome | URL | Como nomear o arquivo |
---|---|---|
API Udacity | https://www.udacity.com/public-api/v0/courses | udacity-api.json |
Despejo da Wikipédia | Veja abaixo | wikiclean8 |
cursos edX | Proprietário | Master CourseListings - edX.csv |
Dados DART | Proprietário | corpus_HarvardX_LatestCourses_based_on_2016-10-18.csv |
Baixe e descompacte o conjunto de dados enwik8
em http://www.mattmahoney.net/dc/enwik8.zip. Então execute:
perl processing-scripts/wiki-clean.pl enwik8 > wikiclean8
Isso pode levar um ou dois minutos para ser executado.
SearchBetter foi desenvolvido como parte de um projeto de pesquisa de Neel Mehta, Daniel Seaton e Dustin Tingley para o CS 91r de Harvard, um curso de pesquisa para crédito.
Ele foi originalmente projetado para Harvard DART, uma ferramenta que ajuda educadores a reutilizar recursos HarvardX, como vídeos e exercícios em seus cursos online ou offline. O SearchBetter é especialmente útil para MOOCs, que geralmente têm corpus pequenos e precisam lidar com muitas consultas incomuns (afinal, os alunos pesquisarão os termos mais desconhecidos). Ainda assim, o SearchBetter se tornou de uso geral o suficiente para poder ser usado com qualquer corpus ou qualquer mecanismo de busca.