nanosearch
1.0.0
Nanosearch — это поисковая система в памяти, предназначенная для небольших (< 10 000 URL-адресов) веб-сайтов.
С помощью Nanosearch вы можете создать поисковую систему за несколько строк кода.
Nanosearch поддерживает алгоритмы BM25 и TF/IDF.
Nanosearch также вычисляет граф ссылок и использует количество входящих ссылок на страницу в качестве фактора ранжирования. Это полезно для ранжирования результатов по запросам, в которых имеется несколько релевантных страниц по ключевому слову.
pip install nanosearch
from nanosearch import NanoSearchBM25
engine = NanoSearchBM25 (). from_sitemap (
"https://jamesg.blog/sitemap.xml" ,
title_transforms = [ lambda x : x . split ( "|" )[ 0 ]]
)
results = engine . search ( "coffee" )
print ( results )
from nanosearch import NanoSearchBM25
urls = [
"https://jamesg.blog/" ,
"https://jamesg.blog/coffee" ,
]
engine = NanoSearchBM25 (). from_urls ( urls )
results = engine . search ( "coffee" )
print ( results )
Вы можете сохранить индекс на диск и загрузить его позже с помощью:
engine . to_nanosearch_json ( "index.json" )
engine = NanoSearchBM25 (). from_nanosearch_json ( "index.json" )
Nanosearch поддерживает следующие алгоритмы поиска:
Этот проект лицензируется по лицензии MIT.