nanosearch
1.0.0
Nanosearch est un moteur de recherche en mémoire conçu pour les petits sites Web (< 10 000 URL).
Avec Nanosearch, vous pouvez créer un moteur de recherche en quelques lignes de code.
Nanosearch prend en charge les algorithmes BM25 et TF/IDF.
Nanosearch calcule également un graphique de liens et utilise le nombre de liens entrants vers une page comme facteur de classement. Ceci est utile pour classer les résultats des requêtes comportant plusieurs pages pertinentes par mot-clé.
pip install nanosearch
from nanosearch import NanoSearchBM25
engine = NanoSearchBM25 (). from_sitemap (
"https://jamesg.blog/sitemap.xml" ,
title_transforms = [ lambda x : x . split ( "|" )[ 0 ]]
)
results = engine . search ( "coffee" )
print ( results )
from nanosearch import NanoSearchBM25
urls = [
"https://jamesg.blog/" ,
"https://jamesg.blog/coffee" ,
]
engine = NanoSearchBM25 (). from_urls ( urls )
results = engine . search ( "coffee" )
print ( results )
Vous pouvez enregistrer un index sur le disque et le charger plus tard avec :
engine . to_nanosearch_json ( "index.json" )
engine = NanoSearchBM25 (). from_nanosearch_json ( "index.json" )
Nanosearch prend en charge les algorithmes de recherche suivants :
Ce projet est sous licence MIT.