nanosearch
1.0.0
Nanosearch는 소규모(< 10,000 URL) 웹사이트를 위해 설계된 인메모리 검색 엔진입니다.
Nanosearch를 사용하면 몇 줄의 코드로 검색 엔진을 구축할 수 있습니다.
Nanosearch는 BM25 및 TF/IDF 알고리즘을 지원합니다.
Nanosearch는 또한 링크 그래프를 계산하고 페이지에 대한 인링크 수를 순위 요소로 사용합니다. 이는 키워드별로 관련 페이지가 여러 개 있는 쿼리에 대한 결과 순위를 매기는 데 유용합니다.
pip install nanosearch
from nanosearch import NanoSearchBM25
engine = NanoSearchBM25 (). from_sitemap (
"https://jamesg.blog/sitemap.xml" ,
title_transforms = [ lambda x : x . split ( "|" )[ 0 ]]
)
results = engine . search ( "coffee" )
print ( results )
from nanosearch import NanoSearchBM25
urls = [
"https://jamesg.blog/" ,
"https://jamesg.blog/coffee" ,
]
engine = NanoSearchBM25 (). from_urls ( urls )
results = engine . search ( "coffee" )
print ( results )
다음을 사용하여 인덱스를 디스크에 저장하고 나중에 로드할 수 있습니다.
engine . to_nanosearch_json ( "index.json" )
engine = NanoSearchBM25 (). from_nanosearch_json ( "index.json" )
Nanosearch는 다음 검색 알고리즘을 지원합니다.
이 프로젝트는 MIT 라이선스에 따라 라이선스가 부여됩니다.