sarathi serve
1.0.0
Sarathi-Serve é uma estrutura de serviço LLM de alto rendimento e baixa latência. Consulte nosso artigo OSDI'24 para obter mais detalhes.
Sarathi-Serve foi testado com CUDA 12.3 em GPUs H100 e A100.
git clone [email protected]:microsoft/sarathi-serve.git
Configure o mamba se ainda não o tiver,
wget https://github.com/conda-forge/miniforge/releases/latest/download/Mambaforge-Linux-x86_64.sh
bash Mambaforge-Linux-x86_64.sh # follow the instructions from there
Crie um ambiente Python 3.10,
mamba create -p ./env python=3.10
pip install -e . --extra-index-url https://flashinfer.ai/whl/cu121/torch2.3/
Consulte os leia-mes em pastas individuais correspondentes a cada figura em osdi-experiments
.
Se você usar nosso trabalho, considere citar nosso artigo:
@article{agrawal2024taming,
title={Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve},
author={Agrawal, Amey and Kedia, Nitin and Panwar, Ashish and Mohan, Jayashree and Kwatra, Nipun and Gulavani, Bhargav S and Tumanov, Alexey and Ramjee, Ramachandran},
journal={Proceedings of 18th USENIX Symposium on Operating Systems Design and Implementation, 2024, Santa Clara},
year={2024}
}
Este repositório começou originalmente como uma bifurcação do projeto vLLM. Sarathi-Serve é um protótipo de pesquisa e não possui paridade completa de recursos com o vLLM de código aberto. Mantivemos apenas os recursos mais críticos e adotamos a base de código para iterações de pesquisa mais rápidas.