nanosearch
1.0.0
Nanosearch は、小規模 (URL 10,000 未満) の Web サイト向けに設計されたメモリ内検索エンジンです。
Nanosearch を使用すると、数行のコードで検索エンジンを構築できます。
Nanosearch は、BM25 および TF/IDF アルゴリズムをサポートしています。
Nanosearch はリンク グラフも計算し、ページへのインリンクの数をランキング要素として使用します。これは、キーワードごとに関連するページが複数ある場合のクエリの結果をランク付けする場合に役立ちます。
pip install nanosearch
from nanosearch import NanoSearchBM25
engine = NanoSearchBM25 (). from_sitemap (
"https://jamesg.blog/sitemap.xml" ,
title_transforms = [ lambda x : x . split ( "|" )[ 0 ]]
)
results = engine . search ( "coffee" )
print ( results )
from nanosearch import NanoSearchBM25
urls = [
"https://jamesg.blog/" ,
"https://jamesg.blog/coffee" ,
]
engine = NanoSearchBM25 (). from_urls ( urls )
results = engine . search ( "coffee" )
print ( results )
インデックスをディスクに保存し、後で次のようにロードできます。
engine . to_nanosearch_json ( "index.json" )
engine = NanoSearchBM25 (). from_nanosearch_json ( "index.json" )
Nanosearch は、次の検索アルゴリズムをサポートしています。
このプロジェクトは MIT ライセンスに基づいてライセンスされています。