sarathi serve
1.0.0
Sarathi-Serve 是一個高吞吐量、低延遲的 LLM 服務框架。請參閱我們的 OSDI'24 論文以了解更多詳細資訊。
Sarathi-Serve 已在 H100 和 A100 GPU 上使用 CUDA 12.3 進行了測試。
git clone [email protected]:microsoft/sarathi-serve.git
如果您還沒有安裝 mamba,
wget https://github.com/conda-forge/miniforge/releases/latest/download/Mambaforge-Linux-x86_64.sh
bash Mambaforge-Linux-x86_64.sh # follow the instructions from there
創建Python 3.10環境,
mamba create -p ./env python=3.10
pip install -e . --extra-index-url https://flashinfer.ai/whl/cu121/torch2.3/
請參閱osdi-experiments
中每個圖對應的各個資料夾中的自述文件。
如果您使用我們的工作,請考慮引用我們的論文:
@article{agrawal2024taming,
title={Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve},
author={Agrawal, Amey and Kedia, Nitin and Panwar, Ashish and Mohan, Jayashree and Kwatra, Nipun and Gulavani, Bhargav S and Tumanov, Alexey and Ramjee, Ramachandran},
journal={Proceedings of 18th USENIX Symposium on Operating Systems Design and Implementation, 2024, Santa Clara},
year={2024}
}
這個儲存庫最初是作為 vLLM 專案的一個分支開始的。 Sarathi-Serve 是一個研究原型,不具備與開源 vLLM 完全等同的功能。我們只保留了最關鍵的功能,並採用程式碼庫來加快研究迭代速度。