nanosearch
1.0.0
Nanosearch adalah mesin pencari dalam memori yang dirancang untuk situs web kecil (<10.000 URL).
Dengan Nanosearch, Anda dapat membangun mesin pencari dalam beberapa baris kode.
Nanosearch mendukung algoritma BM25 dan TF/IDF.
Nanosearch juga menghitung grafik tautan dan menggunakan jumlah tautan masuk ke halaman sebagai faktor peringkat. Ini berguna untuk memberi peringkat pada hasil kueri yang memiliki beberapa halaman relevan berdasarkan kata kunci.
pip install nanosearch
from nanosearch import NanoSearchBM25
engine = NanoSearchBM25 (). from_sitemap (
"https://jamesg.blog/sitemap.xml" ,
title_transforms = [ lambda x : x . split ( "|" )[ 0 ]]
)
results = engine . search ( "coffee" )
print ( results )
from nanosearch import NanoSearchBM25
urls = [
"https://jamesg.blog/" ,
"https://jamesg.blog/coffee" ,
]
engine = NanoSearchBM25 (). from_urls ( urls )
results = engine . search ( "coffee" )
print ( results )
Anda dapat menyimpan indeks ke disk dan memuatnya nanti dengan:
engine . to_nanosearch_json ( "index.json" )
engine = NanoSearchBM25 (). from_nanosearch_json ( "index.json" )
Nanosearch mendukung algoritma pencarian berikut:
Proyek ini dilisensikan di bawah lisensi MIT.