sarathi serve
1.0.0
Sarathi-Serve は、高スループットかつ低遅延の LLM サービス フレームワークです。詳細については、OSDI'24 の論文を参照してください。
Sarathi-Serve は、H100 および A100 GPU 上の CUDA 12.3 でテストされています。
git clone [email protected]:microsoft/sarathi-serve.git
まだお持ちでない場合は、mamba をセットアップします。
wget https://github.com/conda-forge/miniforge/releases/latest/download/Mambaforge-Linux-x86_64.sh
bash Mambaforge-Linux-x86_64.sh # follow the instructions from there
Python 3.10環境を作成し、
mamba create -p ./env python=3.10
pip install -e . --extra-index-url https://flashinfer.ai/whl/cu121/torch2.3/
osdi-experiments
の各図に対応する個別のフォルダーにある readme を参照してください。
私たちの著作物を使用する場合は、私たちの論文を引用することを検討してください。
@article{agrawal2024taming,
title={Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve},
author={Agrawal, Amey and Kedia, Nitin and Panwar, Ashish and Mohan, Jayashree and Kwatra, Nipun and Gulavani, Bhargav S and Tumanov, Alexey and Ramjee, Ramachandran},
journal={Proceedings of 18th USENIX Symposium on Operating Systems Design and Implementation, 2024, Santa Clara},
year={2024}
}
このリポジトリは、もともと vLLM プロジェクトのフォークとして始まりました。 Sarathi-Serve は研究プロトタイプであり、オープンソース vLLM と完全に同等の機能はありません。私たちは最も重要な機能のみを保持し、研究の反復を迅速化するためにコードベースを採用しました。