Téléchargement Fast BM25 - Téléchargement Fast BM25

Fast BM25

Autre code source

1.0.0

Télécharger

Rapide-BM25

Une implémentation rapide de BM25 en Python.
BM25 est une fonction de classement simple et rapide pour les moteurs de recherche fonctionnant sur des mots (tokens).
Il ne fonctionne pas bien avec les fautes d'orthographe, alors utilisez-le uniquement dans des contextes où cela ne pose pas de problème.

L'implémentation de base du BM25 provient de dorianbrown/rank_bm25.

Comment utiliser

Initialisez BM25 en lui transmettant un corpus, c'est-à-dire un itérateur sur des documents tokenisés (une liste de chaînes).

 from fast_bm25 import BM25

# Load your corpus
corpus = ...

bm25 = new BM25 ( corpus )
results = bm25 . get_top_n ([ "largest" , "city" , "in" , "Japan" ], corpus );

Ce n'est pas un package python, copiez le fichier si vous souhaitez l'utiliser

Principe

Dans un corpus textuel, les mots les plus courants (le, a, an, ...) sont souvent les moins informatifs.
En les coupant de la requête et en recherchant uniquement les documents contenant au moins un mot de la requête, le BM25 gagne beaucoup de vitesse tout en perdant très peu de précision.
Ce compromis est contrôlé par le paramètre alpha : alpha plus élevé => plus de vitesse et plus de coupure de mots.
À $alpha = -inf$ l'algorithme est équivalent au BM25 classique.

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2024-12-20
taille 3.54KB
Provenant de Github

Applications connexes

Logiciel de cinéma et de télévision Golden Leaf Fast

2024-08-17
Version mobile de la guerre de la restauration rapide

2024-07-10
Logiciel de cinéma et de télévision FAST V5

2024-07-08
Version gratuite du logiciel de cinéma et de télévision FAST V4

2023-11-27
Jeu Tap Fast Run en version chinoise

2023-10-11
Jeu Fast X Racing

2023-05-18

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
waymo open dataset

Autre code source

December 2023 Update
Sunamu

Autre code source

Release 2.2.0
MySchedule.py

Autre code source

Updates to the fetching of week codes
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout