nanosearch
1.0.0
Nanosearch ist eine In-Memory-Suchmaschine, die für kleine Websites (< 10.000 URLs) entwickelt wurde.
Mit Nanosearch können Sie in wenigen Codezeilen eine Suchmaschine erstellen.
Nanosearch unterstützt die Algorithmen BM25 und TF/IDF.
Nanosearch berechnet außerdem ein Linkdiagramm und verwendet die Anzahl der Inlinks zu einer Seite als Rankingfaktor. Dies ist nützlich, um Ergebnisse für Suchanfragen zu ordnen, bei denen es mehrere relevante Seiten nach Schlüsselwort gibt.
pip install nanosearch
from nanosearch import NanoSearchBM25
engine = NanoSearchBM25 (). from_sitemap (
"https://jamesg.blog/sitemap.xml" ,
title_transforms = [ lambda x : x . split ( "|" )[ 0 ]]
)
results = engine . search ( "coffee" )
print ( results )
from nanosearch import NanoSearchBM25
urls = [
"https://jamesg.blog/" ,
"https://jamesg.blog/coffee" ,
]
engine = NanoSearchBM25 (). from_urls ( urls )
results = engine . search ( "coffee" )
print ( results )
Sie können einen Index auf der Festplatte speichern und später laden mit:
engine . to_nanosearch_json ( "index.json" )
engine = NanoSearchBM25 (). from_nanosearch_json ( "index.json" )
Nanosearch unterstützt die folgenden Suchalgorithmen:
Dieses Projekt ist unter einer MIT-Lizenz lizenziert.