Sarathi-Serve — это платформа обслуживания LLM с высокой пропускной способностью и малой задержкой. Более подробную информацию можно найти в нашем документе OSDI'24.
Sarathi-Serve тестировалась с CUDA 12.3 на графических процессорах H100 и A100.
git clone [email protected]:microsoft/sarathi-serve.git
Настройте мамбу, если у вас ее еще нет,
wget https://github.com/conda-forge/miniforge/releases/latest/download/Mambaforge-Linux-x86_64.sh
bash Mambaforge-Linux-x86_64.sh # follow the instructions from there
Создайте среду Python 3.10,
mamba create -p ./env python=3.10
pip install -e . --extra-index-url https://flashinfer.ai/whl/cu121/torch2.3/
Обратитесь к файлам readme в отдельных папках, соответствующих каждому рисунку в osdi-experiments
.
Если вы используете нашу работу, пожалуйста, рассмотрите возможность цитирования нашей статьи:
@article{agrawal2024taming,
title={Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve},
author={Agrawal, Amey and Kedia, Nitin and Panwar, Ashish and Mohan, Jayashree and Kwatra, Nipun and Gulavani, Bhargav S and Tumanov, Alexey and Ramjee, Ramachandran},
journal={Proceedings of 18th USENIX Symposium on Operating Systems Design and Implementation, 2024, Santa Clara},
year={2024}
}
Этот репозиторий изначально создавался как ответвление проекта vLLM. Sarathi-Serve является исследовательским прототипом и не имеет полного соответствия функций vLLM с открытым исходным кодом. Мы сохранили только наиболее важные функции и адаптировали кодовую базу для более быстрых итераций исследования.