FlashRank.jl は、もともと Prithiviraj Damodaran によって開発された素晴らしい FlashRank Python パッケージからインスピレーションを得ています。このパッケージは、Prithiviraj の HF リポジトリと Svilupp の HF リポジトリのモデルの重みを利用して、GPU や大きな依存関係を使用せずに、特定のクエリに関連するドキュメントをランク付けする高速かつ効率的な方法を提供します。
これにより、最適なドキュメントに優先順位を付けることで、検索拡張生成 (RAG) パイプラインが強化されます。最小のモデルは、ほぼすべてのマシンで実行できます。
:tiny
):mini4
):mini6
):mini
またはmini12
)どれくらい速いですか? Tiny モデルを使用すると、ラップトップ上で約 0.1 秒で 100 個のドキュメントをランク付けできます。 MiniLM (12 レイヤー) モデルを使用すると、100 個のドキュメントを約 0.4 秒でランク付けできます。
ヒント: レイテンシーの予算内で許容できる最大のモデルを選択してください。つまり、MiniLM L-12 は最も遅いですが、最高の精度を備えています。
最大チャンク サイズが 512 トークンの BERT モデルを使用していることに注意してください (超過したものは切り捨てられます)。
次のようにするだけで環境に追加できます。
using Pkg
Pkg . activate ( " . " )
Pkg . add ( " FlashRank " )
特定のクエリに対してドキュメントをランク付けするのは次のように簡単です。
ENV [ " DATADEPS_ALWAYS_ACCEPT " ] = " true "
using FlashRank
ranker = RankerModel () # Defaults to model = `:tiny`
query = " How to speedup LLMs? "
passages = [
" Introduce *lookahead decoding*: - a parallel decoding algo to accelerate LLM inference - w/o the need for a draft model or a data store - linearly decreases # decoding steps relative to log(FLOPs) used per decoding step. " ,
" LLM inference efficiency will be one of the most crucial topics for both industry and academia, simply because the more efficient you are, the more $$$ you will save. vllm project is a must-read for this direction, and now they have just released the paper " ,
" There are many ways to increase LLM inference throughput (tokens/second) and decrease memory footprint, sometimes at the same time. Here are a few methods I’ve found effective when working with Llama 2. These methods are all well-integrated with Hugging Face. This list is far from exhaustive; some of these techniques can be used in combination with each other and there are plenty of others to try. - Bettertransformer (Optimum Library): Simply call `model.to_bettertransformer()` on your Hugging Face model for a modest improvement in tokens per second. - Fp4 Mixed-Precision (Bitsandbytes): Requires minimal configuration and dramatically reduces the model's memory footprint. - AutoGPTQ: Time-consuming but leads to a much smaller model and faster inference. The quantization is a one-time cost that pays off in the long run. " ,
" Ever want to make your LLM inference go brrrrr but got stuck at implementing speculative decoding and finding the suitable draft model? No more pain! Thrilled to unveil Medusa, a simple framework that removes the annoying draft model while getting 2x speedup. " ,
" vLLM is a fast and easy-to-use library for LLM inference and serving. vLLM is fast with: State-of-the-art serving throughput Efficient management of attention key and value memory with PagedAttention Continuous batching of incoming requests Optimized CUDA kernels " ,
];
result = rank (ranker, query, passages)
result
はRankResult
型で、並べ替えられたパッセージ、そのスコア (0 ~ 1、1 が最高)、および並べ替えられたドキュメントの位置 (元のpassages
ベクトルを参照) が含まれます。
ここでは、FlashRank.jl を PromptingTools.jl RAG パイプラインに統合する方法の簡単な概要を示します。
完全な例については、 examples/prompting_tools_integration.jl
参照してください。
using FlashRank
using PromptingTools
using PromptingTools . Experimental . RAGTools
const RT = PromptingTools . Experimental . RAGTools
# Wrap the model to be a valid Ranker recognized by RAGTools
# It will be provided to the airag/rerank function to avoid instantiating it on every call
struct FlashRanker <: RT.AbstractReranker
model :: RankerModel
end
reranker = RankerModel ( :tiny ) |> FlashRanker
# Define the method for ranking with it
function RT . rerank (
reranker :: FlashRanker , index :: RT.AbstractDocumentIndex , question :: AbstractString ,
candidates :: RT.AbstractCandidateChunks ; kwargs ... )
# # omitted for brevity
# # See examples/prompting_tools_integration.jl for details
end
# # Apply to the pipeline configuration, eg,
cfg = RAGConfig (; retriever = RT . AdvancedRetriever (; reranker))
# # assumes existing index
question = " Tell me about prehistoric animals "
result = airag (cfg, index; question, return_all = true )
tiny_embed
モデル (Bert-L4) を使用すると、非常に「粗い」が高速な埋め込みを活用することもできます。
embedder = FlashRank . EmbedderModel ( :tiny_embed )
passages = [ " This is a test " , " This is another test " ]
result = FlashRank . embed (embedder, passages)