nanosearch
1.0.0
Nanosearch 是一款記憶體搜尋引擎,專為小型(< 10,000 URL)網站而設計。
使用 Nanosearch,您可以用幾行程式碼建立搜尋引擎。
Nanosearch 支援 BM25 和 TF/IDF 演算法。
Nanosearch 也計算連結圖,並使用頁面的內連結數量作為排名因素。這對於按關鍵字對有多個相關頁面的查詢結果進行排名非常有用。
pip install nanosearch
from nanosearch import NanoSearchBM25
engine = NanoSearchBM25 (). from_sitemap (
"https://jamesg.blog/sitemap.xml" ,
title_transforms = [ lambda x : x . split ( "|" )[ 0 ]]
)
results = engine . search ( "coffee" )
print ( results )
from nanosearch import NanoSearchBM25
urls = [
"https://jamesg.blog/" ,
"https://jamesg.blog/coffee" ,
]
engine = NanoSearchBM25 (). from_urls ( urls )
results = engine . search ( "coffee" )
print ( results )
您可以將索引儲存到磁碟並稍後載入:
engine . to_nanosearch_json ( "index.json" )
engine = NanoSearchBM25 (). from_nanosearch_json ( "index.json" )
Nanosearch 支援以下搜尋演算法:
該計畫已獲得麻省理工學院許可。