Sarathi-Serve adalah kerangka kerja layanan LLM dengan throughput tinggi dan latensi rendah. Silakan merujuk ke makalah OSDI'24 kami untuk lebih jelasnya.
Sarathi-Serve telah diuji dengan CUDA 12.3 pada GPU H100 dan A100.
git clone [email protected]:microsoft/sarathi-serve.git
Siapkan mamba jika Anda belum memilikinya,
wget https://github.com/conda-forge/miniforge/releases/latest/download/Mambaforge-Linux-x86_64.sh
bash Mambaforge-Linux-x86_64.sh # follow the instructions from there
Buat lingkungan Python 3.10,
mamba create -p ./env python=3.10
pip install -e . --extra-index-url https://flashinfer.ai/whl/cu121/torch2.3/
Lihat readmes di folder individual yang sesuai dengan setiap gambar di osdi-experiments
.
Jika Anda menggunakan karya kami, mohon pertimbangkan untuk mengutip makalah kami:
@article{agrawal2024taming,
title={Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve},
author={Agrawal, Amey and Kedia, Nitin and Panwar, Ashish and Mohan, Jayashree and Kwatra, Nipun and Gulavani, Bhargav S and Tumanov, Alexey and Ramjee, Ramachandran},
journal={Proceedings of 18th USENIX Symposium on Operating Systems Design and Implementation, 2024, Santa Clara},
year={2024}
}
Repositori ini awalnya dimulai sebagai cabang dari proyek vLLM. Sarathi-Serve adalah prototipe penelitian dan tidak memiliki kesamaan fitur lengkap dengan vLLM sumber terbuka. Kami hanya mempertahankan fitur yang paling penting dan mengadopsi basis kode untuk iterasi penelitian yang lebih cepat.