Fast BM25
1.0.0
Python에서 BM25를 빠르게 구현합니다.
BM25는 단어(토큰)로 작동하는 검색 엔진을 위한 간단하고 빠른 순위 기능입니다.
철자가 틀린 경우에는 잘 작동하지 않으므로 문제가 되지 않는 상황에서만 사용하십시오.
기본 BM25 구현은 dorianbrown/rank_bm25에서 이루어졌습니다.
토큰화된 문서(문자열 목록)에 대한 반복자라고도 불리는 코퍼스를 전달하여 BM25를 초기화합니다.
from fast_bm25 import BM25
# Load your corpus
corpus = ...
bm25 = new BM25 ( corpus )
results = bm25 . get_top_n ([ "largest" , "city" , "in" , "Japan" ], corpus );
Python 패키지가 아닙니다. 사용하려면 파일을 복사하세요.
텍스트 코퍼스에서는 가장 일반적인 단어(the, a, an, ...)가 정보를 가장 적게 제공하는 경우가 많습니다.
쿼리에서 해당 항목을 잘라내고 쿼리 단어가 하나 이상 포함된 문서만 검색함으로써 BM25는 정확도는 거의 잃지 않으면서 속도는 향상됩니다.
이 절충안은 매개변수 alpha
에 의해 제어됩니다. 알파가 높을수록 => 속도가 빨라지고 단어 잘림이 많아집니다.
~에