Sarathi-Serve ist ein LLM-Serving-Framework mit hohem Durchsatz und geringer Latenz. Weitere Einzelheiten finden Sie in unserem OSDI'24-Papier.
Sarathi-Serve wurde mit CUDA 12.3 auf H100- und A100-GPUs getestet.
git clone [email protected]:microsoft/sarathi-serve.git
Richten Sie Mamba ein, falls Sie es noch nicht haben.
wget https://github.com/conda-forge/miniforge/releases/latest/download/Mambaforge-Linux-x86_64.sh
bash Mambaforge-Linux-x86_64.sh # follow the instructions from there
Erstellen Sie eine Python 3.10-Umgebung.
mamba create -p ./env python=3.10
pip install -e . --extra-index-url https://flashinfer.ai/whl/cu121/torch2.3/
Lesen Sie die Readme-Dateien in den einzelnen Ordnern, die den einzelnen Abbildungen in osdi-experiments
entsprechen.
Wenn Sie unsere Arbeit nutzen, denken Sie bitte darüber nach, unseren Artikel zu zitieren:
@article{agrawal2024taming,
title={Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve},
author={Agrawal, Amey and Kedia, Nitin and Panwar, Ashish and Mohan, Jayashree and Kwatra, Nipun and Gulavani, Bhargav S and Tumanov, Alexey and Ramjee, Ramachandran},
journal={Proceedings of 18th USENIX Symposium on Operating Systems Design and Implementation, 2024, Santa Clara},
year={2024}
}
Dieses Repository begann ursprünglich als Zweig des vLLM-Projekts. Sarathi-Serve ist ein Forschungsprototyp und weist keine vollständige Funktionsgleichheit mit Open-Source-vLLM auf. Wir haben nur die wichtigsten Funktionen beibehalten und die Codebasis für schnellere Forschungsiterationen übernommen.