nanosearch
1.0.0
Nanosearch เป็นเครื่องมือค้นหาในหน่วยความจำที่ออกแบบมาสำหรับเว็บไซต์ขนาดเล็ก (< 10,000 URL)
ด้วย Nanosearch คุณสามารถสร้างเครื่องมือค้นหาด้วยโค้ดไม่กี่บรรทัด
Nanosearch รองรับอัลกอริธึม BM25 และ TF/IDF
Nanosearch ยังคำนวณกราฟลิงก์และใช้จำนวนลิงก์ไปยังหน้าเป็นปัจจัยในการจัดอันดับ สิ่งนี้มีประโยชน์สำหรับการจัดอันดับผลลัพธ์สำหรับข้อความค้นหาที่มีหน้าที่เกี่ยวข้องหลายหน้าตามคำสำคัญ
pip install nanosearch
from nanosearch import NanoSearchBM25
engine = NanoSearchBM25 (). from_sitemap (
"https://jamesg.blog/sitemap.xml" ,
title_transforms = [ lambda x : x . split ( "|" )[ 0 ]]
)
results = engine . search ( "coffee" )
print ( results )
from nanosearch import NanoSearchBM25
urls = [
"https://jamesg.blog/" ,
"https://jamesg.blog/coffee" ,
]
engine = NanoSearchBM25 (). from_urls ( urls )
results = engine . search ( "coffee" )
print ( results )
คุณสามารถบันทึกดัชนีลงในดิสก์และโหลดได้ในภายหลังด้วย:
engine . to_nanosearch_json ( "index.json" )
engine = NanoSearchBM25 (). from_nanosearch_json ( "index.json" )
Nanosearch รองรับอัลกอริธึมการค้นหาต่อไปนี้:
โครงการนี้ได้รับอนุญาตภายใต้ใบอนุญาต MIT