BM25
1.0.0
BM25 순위 함수의 Python 구현입니다.
프로그램에는 파서, 쿼리 프로세서, 순위 기능, 데이터 구조의 4가지 주요 모듈이 있습니다. 파서 모듈은 쿼리 파일과 코퍼스 파일을 구문 분석하여 각각 목록과 사전을 생성합니다. 쿼리 프로세서는 쿼리 목록의 각 쿼리를 가져와 용어에 따라 문서의 점수를 매깁니다. 순위 기능은 BM25 순위 기능을 구현한 것입니다. 계산에 자연 로그를 사용합니다. 마지막으로 데이터 구조 모듈에는 반전된 인덱스와 문서 길이 테이블이 포함되어 있습니다. 반전된 인덱스는 사전을 사용하여 각 단어를 사전에 매핑합니다. 이 보조 사전은 각 문서 ID를 외부 사전의 단어 빈도에 매핑합니다. 문서 길이 테이블에는 각 문서의 길이가 포함되어 있으며 컬렉션의 평균 문서 길이를 계산하는 기능도 있습니다.
실행하려면 src 폴더에서 $ python main.py
실행하면 됩니다.