Télécharger retriv - Téléchargement du code source retriv

retriv

Autre code source

v0.2.1

Télécharger

Nouvelles

[23 août 2023] retriv 0.2.2 est sortie !
Cette version ajoute une prise en charge expérimentale des documents et filtres multi-champs. Veuillez vous référer à la documentation Advanced Retriever.
[18 février 2023] retriv 0.2.0 est sorti !
Cette version ajoute la prise en charge de la récupération dense et hybride. Dense Retrieval exploite la similarité sémantique des représentations vectorielles des requêtes et des documents, qui peuvent être calculées directement par retriv ou importées à partir d'autres sources. La récupération hybride mélange les résultats de la récupération traditionnelle, officieusement appelée Sparse Retrieval, et les résultats de la récupération dense pour améliorer encore l'efficacité de la récupération. La bibliothèque ayant été presque entièrement refaite, les index construits avec les versions précédentes ne sont plus pris en charge.

⚡️Présentation

retriv est un moteur de recherche convivial et efficace implémenté en Python prenant en charge Sparse (recherche traditionnelle avec BM25, TF-IDF), Dense (recherche sémantique) et la récupération hybride (un mélange de récupération Sparse et Dense). Il vous permet de construire un moteur de recherche en une seule ligne de code .

retriv est construit sur Numba pour les opérations vectorielles à grande vitesse et la parallélisation automatique, PyTorch et Transformers pour un accès et une utilisation faciles des modèles de langage basés sur Transformer, et Faiss pour la recherche approximative du voisin le plus proche. De plus, il fournit des fonctionnalités de réglage automatique pour vous permettre de régler ses composants internes avec une intervention minimale.

Principales caractéristiques

Récupérateurs

Sparse Retriever : chercheur standard basé sur la correspondance lexicale. retriv implémente BM25 comme modèle de récupération principal. TF-IDF est également pris en charge à des fins éducatives. Le récupérateur clairsemé est équipé de plusieurs stemmers, tokenizers et listes de mots vides, pour plusieurs langues. Cliquez ici pour en savoir plus.
Dense Retriever : un dense retriever est un modèle de récupération qui effectue une recherche sémantique. Cliquez ici pour en savoir plus.
Hybrid Retriever : un retriever hybride est un modèle de récupération construit sur un retriever clairsemé et un retriever dense. Cliquez ici pour en savoir plus.
Advanced Retriever : un récupérateur clairsemé avancé prenant en charge les filtres. Il s’agit d’une fonctionnalité expérimentale. Cliquez ici pour en savoir plus.

Interface de recherche unifiée

Tous les récupérateurs pris en charge partagent la même interface de recherche :

recherche : fonctionnalité de recherche standard, ce que vous attendez d'un moteur de recherche.
msearch : calcule les résultats de plusieurs requêtes à la fois. Il exploite la parallélisation automatique autant que possible.
bsearch : similaire à msearch mais génère automatiquement des lots de requêtes à évaluer et permet l'écriture dynamique des résultats de la recherche sur le disque au format JSONl. bsearch est pratique pour calculer les résultats de centaines de milliers, voire de millions de requêtes sans monopoliser votre RAM. Les résultats précalculés peuvent être exploités pour un échantillonnage négatif lors de la formation de modèles neuronaux pour la recherche d'informations.

Réglage automatique

retriv ajuste automatiquement la configuration Faiss pour la recherche approximative des voisins les plus proches en tirant parti d'AutoFaiss pour garantir un temps de réponse de 10 ms en fonction de votre matériel disponible. De plus, il offre une fonctionnalité de réglage automatique des paramètres du BM25, qui nécessitent une intervention minimale de l'utilisateur. Sous le capot, retriv exploite Optuna, un framework d'optimisation d'hyperparamètres, et ranx, une bibliothèque d'évaluation de recherche d'informations, pour tester plusieurs configurations de paramètres pour BM25 et choisir la meilleure. Enfin, il peut automatiquement équilibrer l’importance des scores de pertinence lexicale et sémantique calculés par Hybrid Retriever pour maximiser l’efficacité de la récupération.

Documentation

Retriever clairsemé
Retriever dense
Retriever hybride
Prétraitement du texte
FAQ

? Exigences

 python>=3.8

? Installation

pip install retriv

Exemple de travail minimal

 # Note: SearchEngine is an alias for the SparseRetriever
from retriv import SearchEngine

collection = [
  { "id" : "doc_1" , "text" : "Generals gathered in their masses" },
  { "id" : "doc_2" , "text" : "Just like witches at black masses" },
  { "id" : "doc_3" , "text" : "Evil minds that plot destruction" },
  { "id" : "doc_4" , "text" : "Sorcerer of death's construction" },
]

se = SearchEngine ( "new-index" ). index ( collection )

se . search ( "witches masses" )

Sortir:

[
  {
    "id" : " doc_2 " ,
    "text" : " Just like witches at black masses " ,
    "score" : 1.7536403
  },
  {
    "id" : " doc_1 " ,
    "text" : " Generals gathered in their masses " ,
    "score" : 0.6931472
  }
]