|博客|文档|加入 Slack |参加双周开发会议|幻灯片|
消息
- [2024/10] 第一届 SGLang 在线聚会(幻灯片)。
- [2024/09] SGLang v0.3 发布:DeepSeek MLA 速度提高 7 倍,torch.compile 速度提高 1.5 倍,多图像/视频 LLaVA-OneVision(博客)。
- [2024/07] 使用 SGLang 运行时更快地提供 Llama3 服务(对比 TensorRT-LLM、vLLM)(博客)。
更多的
- [2024/02] SGLang 通过压缩有限状态机使JSON 解码速度提高 3 倍(博客)。
- [2024/04] SGLang 由官方LLaVA-NeXT(视频)版本(博客)使用。
- [2024/01] SGLang 通过 RadixAttention 提供高达5 倍的推理速度(博客)。
- [2024/01] SGLang 为官方LLaVA v1.6发布演示(使用)提供服务。
关于
SGLang 是一个针对大型语言模型和视觉语言模型的快速服务框架。通过共同设计后端运行时和前端语言,它使您与模型的交互更快、更可控。核心功能包括:
- 快速后端运行时:通过 RadixAttention 提供高效的服务,用于前缀缓存、前跳约束解码、连续批处理、令牌注意力(分页注意力)、张量并行性、FlashInfer 内核、分块预填充和量化 (INT4/FP8/AWQ/GPTQ)。
- 灵活的前端语言:为LLM应用程序编程提供直观的界面,包括链式生成调用、高级提示、控制流、多模式输入、并行性和外部交互。
- 广泛的模型支持:支持广泛的生成模型(Llama、Gemma、Mistral、QWen、DeepSeek、LLaVA 等)、嵌入模型(e5-mistral、gte)和奖励模型(Skywork),易于扩展以集成新模型模型。
- 活跃社区:SGLang 是开源的,并得到行业采用的活跃社区的支持。
入门
安装 SGLang:参见 https://sgl-project.github.io/start/install.html
发送请求:参见 https://sgl-project.github.io/start/send_request.html
后端:SGLang 运行时 (SRT)
请参阅 https://sgl-project.github.io/backend/backend.html
前端:结构化生成语言(SGLang)
请参阅 https://sgl-project.github.io/frontend/frontend.html
基准和性能
在我们的发布博客中了解更多信息:v0.2 博客、v0.3 博客
路线图
发展路线图(2024年第四季度)
引用和致谢
如果您发现该项目有用,请引用我们的论文 SGLang:结构化语言模型程序的高效执行。我们还从以下项目的设计和重用代码中学习:Guidance、vLLM、LightLLM、FlashInfer、Outlines 和 LMQL。