nanosearch
1.0.0
Nanosearch é um mecanismo de pesquisa na memória projetado para sites pequenos (<10.000 URL).
Com o Nanosearch, você pode construir um mecanismo de busca em poucas linhas de código.
Nanosearch suporta os algoritmos BM25 e TF/IDF.
Nanosearch também calcula um gráfico de links e usa o número de links para uma página como fator de classificação. Isso é útil para classificar resultados de consultas onde há várias páginas relevantes por palavra-chave.
pip install nanosearch
from nanosearch import NanoSearchBM25
engine = NanoSearchBM25 (). from_sitemap (
"https://jamesg.blog/sitemap.xml" ,
title_transforms = [ lambda x : x . split ( "|" )[ 0 ]]
)
results = engine . search ( "coffee" )
print ( results )
from nanosearch import NanoSearchBM25
urls = [
"https://jamesg.blog/" ,
"https://jamesg.blog/coffee" ,
]
engine = NanoSearchBM25 (). from_urls ( urls )
results = engine . search ( "coffee" )
print ( results )
Você pode salvar um índice no disco e carregá-lo posteriormente com:
engine . to_nanosearch_json ( "index.json" )
engine = NanoSearchBM25 (). from_nanosearch_json ( "index.json" )
Nanosearch suporta os seguintes algoritmos de pesquisa:
Este projeto está licenciado sob uma licença do MIT.