sarathi serve
1.0.0
Sarathi-Serve เป็นเฟรมเวิร์กการให้บริการ LLM ที่มีปริมาณงานสูงและมีความหน่วงต่ำ โปรดดูเอกสาร OSDI'24 ของเราสำหรับรายละเอียดเพิ่มเติม
Sarathi-Serve ได้รับการทดสอบกับ CUDA 12.3 บน GPU H100 และ A100
git clone [email protected]:microsoft/sarathi-serve.git
ตั้งค่า mamba หากคุณยังไม่มี
wget https://github.com/conda-forge/miniforge/releases/latest/download/Mambaforge-Linux-x86_64.sh
bash Mambaforge-Linux-x86_64.sh # follow the instructions from there
สร้างสภาพแวดล้อม Python 3.10
mamba create -p ./env python=3.10
pip install -e . --extra-index-url https://flashinfer.ai/whl/cu121/torch2.3/
อ้างถึง readmes ในแต่ละโฟลเดอร์ที่สอดคล้องกับแต่ละรูปใน osdi-experiments
หากคุณใช้งานของเรา โปรดพิจารณาอ้างอิงบทความของเรา:
@article{agrawal2024taming,
title={Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve},
author={Agrawal, Amey and Kedia, Nitin and Panwar, Ashish and Mohan, Jayashree and Kwatra, Nipun and Gulavani, Bhargav S and Tumanov, Alexey and Ramjee, Ramachandran},
journal={Proceedings of 18th USENIX Symposium on Operating Systems Design and Implementation, 2024, Santa Clara},
year={2024}
}
เดิมทีที่เก็บนี้เริ่มต้นจากทางแยกของโปรเจ็กต์ vLLM Sarathi-Serve เป็นต้นแบบการวิจัยและไม่มีฟีเจอร์ที่เทียบเท่ากับ vLLM แบบโอเพ่นซอร์สอย่างสมบูรณ์ เรายังคงรักษาคุณลักษณะที่สำคัญที่สุดไว้เท่านั้นและนำโค้ดเบสมาใช้เพื่อการทำซ้ำการวิจัยที่รวดเร็วยิ่งขึ้น