| 블로그 | 문서 | Slack에 가입 | 격주 개발 회의에 참여 | 슬라이드 |
소식
- [2024/10] 제1회 SGLang 온라인 밋업(슬라이드).
- [2024/09] SGLang v0.3 릴리스: 7배 더 빨라진 DeepSeek MLA, 1.5배 더 빨라진 torch.compile, 다중 이미지/비디오 LLaVA-OneVision(블로그).
- [2024/07] SGLang 런타임으로 더욱 빠른 Llama3 제공(TensorRT-LLM, vLLM 대비)(블로그).
더
- [2024/02] SGLang은 압축된 유한 상태 머신을 사용하여 3배 더 빠른 JSON 디코딩을 가능하게 합니다(블로그).
- [2024/04] SGLang은 공식 LLaVA-NeXT(동영상) 릴리스(블로그)에서 사용됩니다.
- [2024/01] SGLang은 RadixAttention(블로그)을 통해 최대 5배 더 빠른 추론을 제공합니다.
- [2024/01] SGLang은 공식 LLaVA v1.6 릴리스 데모(사용) 제공을 지원합니다.
에 대한
SGLang은 대규모 언어 모델 및 비전 언어 모델을 위한 빠른 서비스 프레임워크입니다. 백엔드 런타임과 프런트엔드 언어를 공동 설계하여 모델과의 상호 작용을 더욱 빠르고 효과적으로 제어할 수 있습니다. 핵심 기능은 다음과 같습니다.
- 빠른 백엔드 런타임 : 접두사 캐싱, 앞으로 점프 제한 디코딩, 연속 일괄 처리, 토큰 주의(페이징 주의), 텐서 병렬 처리, FlashInfer 커널, 청크 미리 채우기 및 양자화(INT4/FP8/AWQ/GPTQ)를 위해 RadixAttention을 통해 효율적인 서비스를 제공합니다.
- 유연한 프런트엔드 언어 : 체인 생성 호출, 고급 프롬프트, 제어 흐름, 다중 모드 입력, 병렬 처리 및 외부 상호 작용을 포함하여 LLM 애플리케이션 프로그래밍을 위한 직관적인 인터페이스를 제공합니다.
- 광범위한 모델 지원 : 다양한 생성 모델(Llama, Gemma, Mistral, QWen, DeepSeek, LLaVA 등), 임베딩 모델(e5-mistral, gte) 및 보상 모델(Skywork)을 지원하며, 새로운 모델을 쉽게 확장할 수 있습니다. 모델.
- 활성 커뮤니티 : SGLang은 오픈 소스이며 업계 채택을 통해 활성 커뮤니티의 지원을 받습니다.
시작하기
SGLang 설치: https://sgl-project.github.io/start/install.html을 참조하세요.
요청 보내기: https://sgl-project.github.io/start/send_request.html을 참조하세요.
백엔드: SGLang 런타임(SRT)
https://sgl-project.github.io/backend/backend.html을 참조하세요.
프런트엔드: 구조화된 생성 언어(SGLang)
https://sgl-project.github.io/frontend/frontend.html을 참조하세요.
벤치마크 및 성능
릴리스 블로그에서 자세히 알아보세요: v0.2 블로그, v0.3 블로그
로드맵
개발 로드맵(2024년 4분기)
인용 및 승인
프로젝트가 유용하다고 생각되면 SGLang: Efficient Execution of Structured Language Model Programs 논문을 인용해 주세요. 또한 Guidance, vLLM, LightLLM, FlashInfer, Outlines 및 LMQL 프로젝트의 설계 및 재사용 코드를 통해 배웠습니다.