FlashRank.jl Télécharger - FlashRank.jl Téléchargement du code source

FlashRank.jl

Autre code source

v0.4.1

Télécharger

FlashRank.jl

FlashRank.jl est inspiré du génial package FlashRank Python, développé à l'origine par Prithiviraj Damodaran. Ce package exploite les pondérations de modèle du dépôt HF de Prithiviraj et du dépôt HF de Svilupp pour fournir un moyen rapide et efficace de classer les documents pertinents pour une requête donnée sans GPU ni dépendances importantes .

Cela améliore les pipelines de génération augmentée de récupération (RAG) en donnant la priorité aux documents les plus appropriés. Le plus petit modèle peut fonctionner sur presque toutes les machines.

Caractéristiques

Quatre modèles de classement :
- Minuscule (~ 4 Mo, INT8) : ms-marco-TinyBERT-L-2-v2 (par défaut) (alias :tiny )
- MiniLM L-4 (~ 70 Mo, FP32) : ms-marco-MiniLM-L-4-v2 ONNX (alias :mini4 )
- MiniLM L-6 (~ 83,4 Mo, FP32) : ms-marco-MiniLM-L-6-v2 ONNX (alias :mini6 )
- MiniLM L-12 (~23 Mo, INT8) : ms-marco-MiniLM-L-12-v2 (alias :mini ou mini12 )
Dépendances légères, évitant les frameworks lourds comme Flux et CUDA pour faciliter l'intégration.

À quelle vitesse est-ce ? Avec le modèle Tiny, vous pouvez classer 100 documents en environ 0,1 seconde sur un ordinateur portable. Avec le modèle MiniLM (12 couches), vous pouvez classer 100 documents en ~0,4 seconde.

Astuce : Choisissez le plus grand modèle que vous pouvez vous permettre avec votre budget de latence, c'est-à-dire que le MiniLM L-12 est le plus lent mais a la meilleure précision.

Notez que nous utilisons des modèles BERT avec une taille de bloc maximale de 512 jetons (tout ce qui dépasse sera tronqué).

Installation

Ajoutez-le à votre environnement simplement avec :

 using Pkg
Pkg . activate ( " . " )
Pkg . add ( " FlashRank " )

Usage

Classer vos documents pour une requête donnée est aussi simple que :

 ENV [ " DATADEPS_ALWAYS_ACCEPT " ] = " true "
using FlashRank

ranker = RankerModel () # Defaults to model = `:tiny`

query = " How to speedup LLMs? "
passages = [
        " Introduce *lookahead decoding*: - a parallel decoding algo to accelerate LLM inference - w/o the need for a draft model or a data store - linearly decreases # decoding steps relative to log(FLOPs) used per decoding step. " ,
        " LLM inference efficiency will be one of the most crucial topics for both industry and academia, simply because the more efficient you are, the more $$$ you will save. vllm project is a must-read for this direction, and now they have just released the paper " ,
        " There are many ways to increase LLM inference throughput (tokens/second) and decrease memory footprint, sometimes at the same time. Here are a few methods I’ve found effective when working with Llama 2. These methods are all well-integrated with Hugging Face. This list is far from exhaustive; some of these techniques can be used in combination with each other and there are plenty of others to try. - Bettertransformer (Optimum Library): Simply call `model.to_bettertransformer()` on your Hugging Face model for a modest improvement in tokens per second. - Fp4 Mixed-Precision (Bitsandbytes): Requires minimal configuration and dramatically reduces the model's memory footprint. - AutoGPTQ: Time-consuming but leads to a much smaller model and faster inference. The quantization is a one-time cost that pays off in the long run. " ,
        " Ever want to make your LLM inference go brrrrr but got stuck at implementing speculative decoding and finding the suitable draft model? No more pain! Thrilled to unveil Medusa, a simple framework that removes the annoying draft model while getting 2x speedup. " ,
        " vLLM is a fast and easy-to-use library for LLM inference and serving. vLLM is fast with: State-of-the-art serving throughput Efficient management of attention key and value memory with PagedAttention Continuous batching of incoming requests Optimized CUDA kernels " ,
];


result = rank (ranker, query, passages)

result est de type RankResult et contient les passages triés, leurs scores (0-1, où 1 est le meilleur) et les positions des documents triés (en référence au vecteur passages d'origine).

Voici un bref aperçu de la façon dont vous pouvez intégrer FlashRank.jl dans votre pipeline RAG PromptingTools.jl.

Pour un exemple complet, voir examples/prompting_tools_integration.jl .

 using FlashRank
using PromptingTools
using PromptingTools . Experimental . RAGTools
const RT = PromptingTools . Experimental . RAGTools

# Wrap the model to be a valid Ranker recognized by RAGTools
# It will be provided to the airag/rerank function to avoid instantiating it on every call
struct FlashRanker <: RT.AbstractReranker
    model :: RankerModel
end
reranker = RankerModel ( :tiny ) |> FlashRanker

# Define the method for ranking with it
function RT . rerank (
        reranker :: FlashRanker , index :: RT.AbstractDocumentIndex , question :: AbstractString ,
        candidates :: RT.AbstractCandidateChunks ; kwargs ... )
    # # omitted for brevity
    # # See examples/prompting_tools_integration.jl for details
end

# # Apply to the pipeline configuration, eg, 
cfg = RAGConfig (; retriever = RT . AdvancedRetriever (; reranker))
# # assumes existing index
question = " Tell me about prehistoric animals "
result = airag (cfg, index; question, return_all = true )

Utilisation avancée

Vous pouvez également exploiter des intégrations assez "grossières" mais rapides avec le modèle tiny_embed (Bert-L4).

embedder = FlashRank . EmbedderModel ( :tiny_embed )

passages = [ " This is a test " , " This is another test " ]
result = FlashRank . embed (embedder, passages)

Remerciements

FlashRank et Transformers.jl ont été essentiels dans le développement de ce package.
Un merci spécial à Prithiviraj Damodaran pour le FlashRank original et les poids du modèle quantifié INT8.
Et à Transformers.jl pour l'implémentation de WordPièce et le tokenizer BERT qui ont été forkés pour ce package (afin de minimiser les dépendances).

Feuille de route

Fournir une extension de package pour PromptingTools
Apportez des modèles encore plus petits (par exemple, Ber-L2-128D)
Introduire un ajustement simplement basé sur la longueur pour intégrer le score de similarité
Re-télécharger les modèles intégrés avec un pooling basé sur un masque (pas de réelle différence, juste théoriquement correct)

Développer

Informations supplémentaires

Version v0.4.1
Type Autre code source
Date de mise à jour 2024-12-23
taille 31.33KB
Provenant de Github

Applications connexes

Lib.Net.Http.WebPush

2024-11-10
PEUR 3

2022-09-05
Constructeur de MASSE

2022-08-29
RUSE

2022-08-20
KOMA

2022-08-11
EUR

2022-07-30

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
waymo open dataset

Autre code source

December 2023 Update
SmartTube

Autre code source

24.71 Stable
Sunamu

Autre code source

Release 2.2.0
waymo open dataset

Autre code source

December 2023 Update
wp functions

Autres catégories

1.0.0
termwind

Autres catégories

v2.3.0

Actualités connexes Tout