nanosearch
1.0.0
Nanosearch es un motor de búsqueda en memoria diseñado para sitios web pequeños (<10.000 URL).
Con Nanosearch, puedes crear un motor de búsqueda en unas pocas líneas de código.
Nanosearch admite los algoritmos BM25 y TF/IDF.
Nanosearch también calcula un gráfico de enlaces y utiliza la cantidad de enlaces entrantes a una página como factor de clasificación. Esto es útil para clasificar los resultados de consultas en las que hay varias páginas relevantes por palabra clave.
pip install nanosearch
from nanosearch import NanoSearchBM25
engine = NanoSearchBM25 (). from_sitemap (
"https://jamesg.blog/sitemap.xml" ,
title_transforms = [ lambda x : x . split ( "|" )[ 0 ]]
)
results = engine . search ( "coffee" )
print ( results )
from nanosearch import NanoSearchBM25
urls = [
"https://jamesg.blog/" ,
"https://jamesg.blog/coffee" ,
]
engine = NanoSearchBM25 (). from_urls ( urls )
results = engine . search ( "coffee" )
print ( results )
Puede guardar un índice en el disco y cargarlo más tarde con:
engine . to_nanosearch_json ( "index.json" )
engine = NanoSearchBM25 (). from_nanosearch_json ( "index.json" )
Nanosearch admite los siguientes algoritmos de búsqueda:
Este proyecto está bajo una licencia MIT.