| Blogue | Documents | Rejoignez Slack | Rejoignez la réunion de développement bihebdomadaire | Diapositives |
Nouvelles
- [2024/10] Le premier Meetup en ligne SGLang (diapositives).
- [2024/09] Sortie de SGLang v0.3 : DeepSeek MLA 7 fois plus rapide, torch.compile 1,5 fois plus rapide, LLaVA-OneVision multi-image/vidéo (blog).
- [2024/07] Service Llama3 plus rapide avec SGLang Runtime (vs TensorRT-LLM, vLLM) (blog).
Plus
- [2024/02] SGLang permet un décodage JSON 3 fois plus rapide avec une machine à états finis compressée (blog).
- [2024/04] SGLang est utilisé par la version officielle de LLaVA-NeXT (vidéo) (blog).
- [2024/01] SGLang fournit une inférence jusqu'à 5 fois plus rapide avec RadixAttention (blog).
- [2024/01] SGLang alimente la démo officielle de la version LLaVA v1.6 (utilisation).
À propos
SGLang est un framework de service rapide pour les grands modèles de langage et les modèles de langage de vision. Il rend votre interaction avec les modèles plus rapide et plus contrôlable en co-concevant le runtime backend et le langage frontend. Les fonctionnalités principales incluent :
- Fast Backend Runtime : fournit un service efficace avec RadixAttention pour la mise en cache des préfixes, le décodage contraint par saut en avant, le traitement par lots continu, l'attention des jetons (attention paginée), le parallélisme tenseur, les noyaux FlashInfer, le pré-remplissage fragmenté et la quantification (INT4/FP8/AWQ/GPTQ).
- Langage frontal flexible : offre une interface intuitive pour la programmation d'applications LLM, y compris des appels de génération chaînés, des invites avancées, un flux de contrôle, des entrées multimodales, le parallélisme et des interactions externes.
- Prise en charge étendue des modèles : prend en charge une large gamme de modèles génératifs (Llama, Gemma, Mistral, QWen, DeepSeek, LLaVA, etc.), de modèles d'intégration (e5-mistral, gte) et de modèles de récompense (Skywork), avec une extensibilité facile pour intégrer de nouveaux modèles.
- Communauté active : SGLang est open source et soutenu par une communauté active adoptée par l'industrie.
Commencer
Installez SGLang : voir https://sgl-project.github.io/start/install.html
Envoyer des demandes : voir https://sgl-project.github.io/start/send_request.html
Back-end : environnement d'exécution SGlang (SRT)
Voir https://sgl-project.github.io/backend/backend.html
Frontend : langage de génération structuré (SGLang)
Voir https://sgl-project.github.io/frontend/frontend.html
Benchmark et performances
Apprenez-en plus sur nos blogs de versions : blog v0.2, blog v0.3
Feuille de route
Feuille de route de développement (T4 2024)
Citation et reconnaissance
Veuillez citer notre article, SGLang : Efficient Execution of Structured Language Model Programs, si vous trouvez le projet utile. Nous avons également tiré des leçons de la conception et réutilisé le code des projets suivants : Guidance, vLLM, LightLLM, FlashInfer, Outlines et LMQL.