sarathi serve
1.0.0
Sarathi-Serve는 처리량이 높고 대기 시간이 짧은 LLM 서비스 프레임워크입니다. 자세한 내용은 OSDI'24 문서를 참조하세요.
Sarathi-Serve는 H100 및 A100 GPU에서 CUDA 12.3으로 테스트되었습니다.
git clone [email protected]:microsoft/sarathi-serve.git
아직 mamba가 없다면 mamba를 설치하세요.
wget https://github.com/conda-forge/miniforge/releases/latest/download/Mambaforge-Linux-x86_64.sh
bash Mambaforge-Linux-x86_64.sh # follow the instructions from there
Python 3.10 환경을 만들고,
mamba create -p ./env python=3.10
pip install -e . --extra-index-url https://flashinfer.ai/whl/cu121/torch2.3/
osdi-experiments
의 각 그림에 해당하는 개별 폴더의 추가 정보를 참조하세요.
우리 작업물을 사용하는 경우, 우리 논문을 인용하는 것을 고려해 보십시오:
@article{agrawal2024taming,
title={Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve},
author={Agrawal, Amey and Kedia, Nitin and Panwar, Ashish and Mohan, Jayashree and Kwatra, Nipun and Gulavani, Bhargav S and Tumanov, Alexey and Ramjee, Ramachandran},
journal={Proceedings of 18th USENIX Symposium on Operating Systems Design and Implementation, 2024, Santa Clara},
year={2024}
}
이 저장소는 원래 vLLM 프로젝트의 포크로 시작되었습니다. Sarathi-Serve는 연구용 프로토타입이며 오픈 소스 vLLM과 완전한 기능 패리티를 갖지 않습니다. 우리는 가장 중요한 기능만 유지하고 더 빠른 연구 반복을 위해 코드베이스를 채택했습니다.