Téléchargement sglang - Téléchargement du code source sglang

sglang

Autre code source

v0.3.4.post1

Télécharger

Nouvelles

[2024/10] Le premier Meetup en ligne SGLang (diapositives).
[2024/09] Sortie de SGLang v0.3 : DeepSeek MLA 7 fois plus rapide, torch.compile 1,5 fois plus rapide, LLaVA-OneVision multi-image/vidéo (blog).
[2024/07] Service Llama3 plus rapide avec SGLang Runtime (vs TensorRT-LLM, vLLM) (blog).

Plus

[2024/02] SGLang permet un décodage JSON 3 fois plus rapide avec une machine à états finis compressée (blog).
[2024/04] SGLang est utilisé par la version officielle de LLaVA-NeXT (vidéo) (blog).
[2024/01] SGLang fournit une inférence jusqu'à 5 fois plus rapide avec RadixAttention (blog).
[2024/01] SGLang alimente la démo officielle de la version LLaVA v1.6 (utilisation).

À propos

SGLang est un framework de service rapide pour les grands modèles de langage et les modèles de langage de vision. Il rend votre interaction avec les modèles plus rapide et plus contrôlable en co-concevant le runtime backend et le langage frontend. Les fonctionnalités principales incluent :

Fast Backend Runtime : fournit un service efficace avec RadixAttention pour la mise en cache des préfixes, le décodage contraint par saut en avant, le traitement par lots continu, l'attention des jetons (attention paginée), le parallélisme tenseur, les noyaux FlashInfer, le pré-remplissage fragmenté et la quantification (INT4/FP8/AWQ/GPTQ).
Langage frontal flexible : offre une interface intuitive pour la programmation d'applications LLM, y compris des appels de génération chaînés, des invites avancées, un flux de contrôle, des entrées multimodales, le parallélisme et des interactions externes.
Prise en charge étendue des modèles : prend en charge une large gamme de modèles génératifs (Llama, Gemma, Mistral, QWen, DeepSeek, LLaVA, etc.), de modèles d'intégration (e5-mistral, gte) et de modèles de récompense (Skywork), avec une extensibilité facile pour intégrer de nouveaux modèles.
Communauté active : SGLang est open source et soutenu par une communauté active adoptée par l'industrie.

Commencer

Installez SGLang : voir https://sgl-project.github.io/start/install.html

Envoyer des demandes : voir https://sgl-project.github.io/start/send_request.html

Back-end : environnement d'exécution SGlang (SRT)

Voir https://sgl-project.github.io/backend/backend.html

Frontend : langage de génération structuré (SGLang)

Voir https://sgl-project.github.io/frontend/frontend.html

Benchmark et performances

Apprenez-en plus sur nos blogs de versions : blog v0.2, blog v0.3

Feuille de route

Feuille de route de développement (T4 2024)

Citation et reconnaissance

Veuillez citer notre article, SGLang : Efficient Execution of Structured Language Model Programs, si vous trouvez le projet utile. Nous avons également tiré des leçons de la conception et réutilisé le code des projets suivants : Guidance, vLLM, LightLLM, FlashInfer, Outlines et LMQL.

Développer

Informations supplémentaires

Version v0.3.4.post1
Type Autre code source
Date de mise à jour 2024-12-10
taille 2.92MB
Provenant de Github

Applications connexes

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
viptools for eslam

2024-12-15
MySchedule.py

2024-12-15
VITAident

2024-12-15

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
waymo open dataset

Autre code source

December 2023 Update
SmartTube

Autre code source

24.71 Stable
Sunamu

Autre code source

Release 2.2.0
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout