sglang Download - sglang Quellcode herunterladen

sglang

Anderer Quellcode

v0.3.4.post1

Herunterladen

Nachricht

[2024/10] Das erste SGLang Online Meetup (Folien).
[2024/09] SGLang v0.3 Release: 7x schnelleres DeepSeek MLA, 1,5x schnelleres Torch.compile, Multi-Image/Video LLaVA-OneVision (Blog).
[2024/07] Schnellere Llama3-Bereitstellung mit SGLang Runtime (im Vergleich zu TensorRT-LLM, vLLM) (Blog).

Mehr

[2024/02] SGLang ermöglicht eine dreimal schnellere JSON-Dekodierung mit komprimierter Finite-State-Maschine (Blog).
[2024/04] SGLang wird von der offiziellen LLaVA-NeXT (Video) -Veröffentlichung (Blog) verwendet.
[2024/01] SGLang bietet bis zu 5x schnellere Inferenz mit RadixAttention (Blog).
[2024/01] SGLang unterstützt die Bereitstellung der offiziellen LLaVA v1.6- Release-Demo (Nutzung).

Um

SGLang ist ein schnelles Framework für große Sprachmodelle und Vision-Sprachmodelle. Durch die gemeinsame Gestaltung der Backend-Laufzeit und der Frontend-Sprache wird Ihre Interaktion mit Modellen schneller und kontrollierbarer. Zu den Kernfunktionen gehören:

Schnelle Backend-Laufzeit : Bietet effiziente Bereitstellung mit RadixAttention für Präfix-Caching, Jump-Forward-Constrained-Decodierung, kontinuierliches Batching, Token-Aufmerksamkeit (Paged Attention), Tensor-Parallelität, FlashInfer-Kernel, Chunked Prefill und Quantisierung (INT4/FP8/AWQ/GPTQ).
Flexible Frontend-Sprache : Bietet eine intuitive Schnittstelle zum Programmieren von LLM-Anwendungen, einschließlich verketteter Generierungsaufrufe, erweiterter Eingabeaufforderung, Kontrollfluss, multimodaler Eingaben, Parallelität und externer Interaktionen.
Umfangreiche Modellunterstützung : Unterstützt eine breite Palette generativer Modelle (Llama, Gemma, Mistral, QWen, DeepSeek, LLaVA usw.), Einbettungsmodelle (e5-mistral, gte) und Belohnungsmodelle (Skywork) mit einfacher Erweiterbarkeit für die Integration neuer Modelle Modelle.
Aktive Community : SGLang ist Open Source und wird von einer aktiven Community mit Branchenakzeptanz unterstützt.

Erste Schritte

SGLang installieren: Siehe https://sgl-project.github.io/start/install.html

Anfragen senden: Siehe https://sgl-project.github.io/start/send_request.html

Backend: SGLang Runtime (SRT)

Siehe https://sgl-project.github.io/backend/backend.html

Frontend: Strukturierte Generierungssprache (SGLang)

Siehe https://sgl-project.github.io/frontend/frontend.html

Benchmark und Leistung

Erfahren Sie mehr in unseren Release-Blogs: v0.2-Blog, v0.3-Blog

Roadmap

Entwicklungs-Roadmap (4. Quartal 2024)

Zitat und Anerkennung

Bitte zitieren Sie unseren Artikel „SGLang: Efficient Execution of Structured Language Model Programs“, wenn Sie das Projekt nützlich finden. Wir haben auch aus dem Design gelernt und Code aus den folgenden Projekten wiederverwendet: Guidance, vLLM, LightLLM, FlashInfer, Outlines und LMQL.

Expandieren

Zusätzliche Informationen