sarathi serve
1.0.0
Sarathi-Serve هو إطار عمل لخدمة LLM ذو إنتاجية عالية وزمن وصول منخفض. يرجى الرجوع إلى ورقة OSDI'24 الخاصة بنا لمزيد من التفاصيل.
تم اختبار Sarathi-Serve باستخدام CUDA 12.3 على وحدات معالجة الرسوميات H100 وA100.
git clone [email protected]:microsoft/sarathi-serve.git
قم بإعداد mamba إذا لم يكن لديك بالفعل،
wget https://github.com/conda-forge/miniforge/releases/latest/download/Mambaforge-Linux-x86_64.sh
bash Mambaforge-Linux-x86_64.sh # follow the instructions from there
إنشاء بيئة بايثون 3.10،
mamba create -p ./env python=3.10
pip install -e . --extra-index-url https://flashinfer.ai/whl/cu121/torch2.3/
الرجوع إلى التمهيديات في المجلدات الفردية المقابلة لكل شخصية في osdi-experiments
.
إذا كنت تستخدم عملنا، يرجى النظر في الاستشهاد بمقالتنا:
@article{agrawal2024taming,
title={Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve},
author={Agrawal, Amey and Kedia, Nitin and Panwar, Ashish and Mohan, Jayashree and Kwatra, Nipun and Gulavani, Bhargav S and Tumanov, Alexey and Ramjee, Ramachandran},
journal={Proceedings of 18th USENIX Symposium on Operating Systems Design and Implementation, 2024, Santa Clara},
year={2024}
}
بدأ هذا المستودع في الأصل باعتباره شوكة لمشروع vLLM. يعد Sarathi-Serve نموذجًا أوليًا للبحث ولا يتمتع بتكافؤ كامل في الميزات مع vLLM مفتوح المصدر. لقد احتفظنا فقط بالميزات الأكثر أهمية واعتمدنا قاعدة التعليمات البرمجية لتكرارات البحث بشكل أسرع.