Sarathi-Serve est un framework de service LLM à haut débit et à faible latence. Veuillez vous référer à notre article OSDI'24 pour plus de détails.
Sarathi-Serve a été testé avec CUDA 12.3 sur les GPU H100 et A100.
git clone [email protected]:microsoft/sarathi-serve.git
Configurez mamba si vous ne l'avez pas déjà,
wget https://github.com/conda-forge/miniforge/releases/latest/download/Mambaforge-Linux-x86_64.sh
bash Mambaforge-Linux-x86_64.sh # follow the instructions from there
Créer un environnement Python 3.10,
mamba create -p ./env python=3.10
pip install -e . --extra-index-url https://flashinfer.ai/whl/cu121/torch2.3/
Reportez-vous aux fichiers Lisez-moi dans les dossiers individuels correspondant à chaque figure dans osdi-experiments
.
Si vous utilisez notre travail, pensez à citer notre article :
@article{agrawal2024taming,
title={Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve},
author={Agrawal, Amey and Kedia, Nitin and Panwar, Ashish and Mohan, Jayashree and Kwatra, Nipun and Gulavani, Bhargav S and Tumanov, Alexey and Ramjee, Ramachandran},
journal={Proceedings of 18th USENIX Symposium on Operating Systems Design and Implementation, 2024, Santa Clara},
year={2024}
}
Ce référentiel a démarré à l'origine comme un fork du projet vLLM. Sarathi-Serve est un prototype de recherche et n'a pas de parité complète de fonctionnalités avec vLLM open source. Nous n'avons conservé que les fonctionnalités les plus critiques et adopté la base de code pour des itérations de recherche plus rapides.