nanosearch
1.0.0
Nanosearch 是一款内存搜索引擎,专为小型(< 10,000 URL)网站而设计。
使用 Nanosearch,您可以用几行代码构建一个搜索引擎。
Nanosearch 支持 BM25 和 TF/IDF 算法。
Nanosearch 还计算链接图,并使用页面的内链接数量作为排名因素。这对于按关键字对有多个相关页面的查询结果进行排名非常有用。
pip install nanosearch
from nanosearch import NanoSearchBM25
engine = NanoSearchBM25 (). from_sitemap (
"https://jamesg.blog/sitemap.xml" ,
title_transforms = [ lambda x : x . split ( "|" )[ 0 ]]
)
results = engine . search ( "coffee" )
print ( results )
from nanosearch import NanoSearchBM25
urls = [
"https://jamesg.blog/" ,
"https://jamesg.blog/coffee" ,
]
engine = NanoSearchBM25 (). from_urls ( urls )
results = engine . search ( "coffee" )
print ( results )
您可以将索引保存到磁盘并稍后加载:
engine . to_nanosearch_json ( "index.json" )
engine = NanoSearchBM25 (). from_nanosearch_json ( "index.json" )
Nanosearch 支持以下搜索算法:
该项目已获得麻省理工学院许可。