| Blog | Dokumentation | Treten Sie Slack bei | Nehmen Sie am zweiwöchentlichen Entwicklungstreffen teil | Folien |
Nachricht
- [2024/10] Das erste SGLang Online Meetup (Folien).
- [2024/09] SGLang v0.3 Release: 7x schnelleres DeepSeek MLA, 1,5x schnelleres Torch.compile, Multi-Image/Video LLaVA-OneVision (Blog).
- [2024/07] Schnellere Llama3-Bereitstellung mit SGLang Runtime (im Vergleich zu TensorRT-LLM, vLLM) (Blog).
Mehr
- [2024/02] SGLang ermöglicht eine dreimal schnellere JSON-Dekodierung mit komprimierter Finite-State-Maschine (Blog).
- [2024/04] SGLang wird von der offiziellen LLaVA-NeXT (Video) -Veröffentlichung (Blog) verwendet.
- [2024/01] SGLang bietet bis zu 5x schnellere Inferenz mit RadixAttention (Blog).
- [2024/01] SGLang unterstützt die Bereitstellung der offiziellen LLaVA v1.6- Release-Demo (Nutzung).
Um
SGLang ist ein schnelles Framework für große Sprachmodelle und Vision-Sprachmodelle. Durch die gemeinsame Gestaltung der Backend-Laufzeit und der Frontend-Sprache wird Ihre Interaktion mit Modellen schneller und kontrollierbarer. Zu den Kernfunktionen gehören:
- Schnelle Backend-Laufzeit : Bietet effiziente Bereitstellung mit RadixAttention für Präfix-Caching, Jump-Forward-Constrained-Decodierung, kontinuierliches Batching, Token-Aufmerksamkeit (Paged Attention), Tensor-Parallelität, FlashInfer-Kernel, Chunked Prefill und Quantisierung (INT4/FP8/AWQ/GPTQ).
- Flexible Frontend-Sprache : Bietet eine intuitive Schnittstelle zum Programmieren von LLM-Anwendungen, einschließlich verketteter Generierungsaufrufe, erweiterter Eingabeaufforderung, Kontrollfluss, multimodaler Eingaben, Parallelität und externer Interaktionen.
- Umfangreiche Modellunterstützung : Unterstützt eine breite Palette generativer Modelle (Llama, Gemma, Mistral, QWen, DeepSeek, LLaVA usw.), Einbettungsmodelle (e5-mistral, gte) und Belohnungsmodelle (Skywork) mit einfacher Erweiterbarkeit für die Integration neuer Modelle Modelle.
- Aktive Community : SGLang ist Open Source und wird von einer aktiven Community mit Branchenakzeptanz unterstützt.
Erste Schritte
SGLang installieren: Siehe https://sgl-project.github.io/start/install.html
Anfragen senden: Siehe https://sgl-project.github.io/start/send_request.html
Backend: SGLang Runtime (SRT)
Siehe https://sgl-project.github.io/backend/backend.html
Frontend: Strukturierte Generierungssprache (SGLang)
Siehe https://sgl-project.github.io/frontend/frontend.html
Benchmark und Leistung
Erfahren Sie mehr in unseren Release-Blogs: v0.2-Blog, v0.3-Blog
Roadmap
Entwicklungs-Roadmap (4. Quartal 2024)
Zitat und Anerkennung
Bitte zitieren Sie unseren Artikel „SGLang: Efficient Execution of Structured Language Model Programs“, wenn Sie das Projekt nützlich finden. Wir haben auch aus dem Design gelernt und Code aus den folgenden Projekten wiederverwendet: Guidance, vLLM, LightLLM, FlashInfer, Outlines und LMQL.