BM25
1.0.0
BM25 排名函數的 Python 實作。
程式有4個主要模組:解析器、查詢處理器、排名函數和資料結構。解析器模組解析查詢檔案和語料庫檔案以分別產生列表和字典。查詢處理器取得查詢清單中的每個查詢,並根據術語對文件進行評分。排名函數是BM25排名函數的實現;它在計算中使用自然對數。最後,資料結構模組包含倒排索引和文件長度表。倒排索引使用字典,將每個單字映射到字典;此輔助字典將每個文檔 ID 對應到外部字典中的詞頻。文檔長度表包含每個文檔的長度,並且還具有計算集合的平均文檔長度的功能。
要運行,只需在 src 資料夾中運行$ python main.py
即可。