| Blog | Documentación | Únete a Slack | Únase a la reunión quincenal de desarrollo | Diapositivas |
Noticias
- [2024/10] La primera reunión en línea de SGLang (diapositivas).
- [2024/09] Lanzamiento de SGLang v0.3: DeepSeek MLA 7 veces más rápido, compilación de antorcha 1,5 veces más rápida, LLaVA-OneVision de múltiples imágenes/vídeo (blog).
- [2024/07] Servicio de Llama3 más rápido con SGLang Runtime (frente a TensorRT-LLM, vLLM) (blog).
Más
- [2024/02] SGLang permite una decodificación JSON 3 veces más rápida con una máquina de estados finitos comprimida (blog).
- [2024/04] SGLang se utiliza en el lanzamiento (blog) oficial de LLaVA-NeXT (vídeo ).
- [2024/01] SGLang proporciona una inferencia hasta 5 veces más rápida con RadixAttention (blog).
- [2024/01] SGLang impulsa la publicación de la demostración oficial de la versión LLaVA v1.6 (uso).
Acerca de
SGLang es un marco de servicio rápido para modelos de lenguaje grandes y modelos de lenguaje de visión. Hace que su interacción con los modelos sea más rápida y controlable al codiseñar el tiempo de ejecución del backend y el lenguaje del frontend. Las características principales incluyen:
- Tiempo de ejecución de backend rápido : proporciona servicio eficiente con RadixAttention para almacenamiento en caché de prefijos, decodificación restringida de salto hacia adelante, procesamiento por lotes continuo, atención de tokens (atención paginada), paralelismo tensorial, núcleos FlashInfer, precarga fragmentada y cuantificación (INT4/FP8/AWQ/GPTQ).
- Lenguaje de interfaz flexible : ofrece una interfaz intuitiva para programar aplicaciones LLM, que incluyen llamadas de generación encadenadas, indicaciones avanzadas, flujo de control, entradas multimodales, paralelismo e interacciones externas.
- Amplio soporte de modelos : admite una amplia gama de modelos generativos (Llama, Gemma, Mistral, QWen, DeepSeek, LLaVA, etc.), modelos integrados (e5-mistral, gte) y modelos de recompensa (Skywork), con fácil extensibilidad para integrar nuevos modelos.
- Comunidad activa : SGLang es de código abierto y está respaldado por una comunidad activa con adopción de la industria.
Empezando
Instale SGLang: consulte https://sgl-project.github.io/start/install.html
Enviar solicitudes: consulte https://sgl-project.github.io/start/send_request.html
Backend: Tiempo de ejecución SGLang (SRT)
Consulte https://sgl-project.github.io/backend/backend.html
Frontend: Lenguaje de generación estructurado (SGLang)
Consulte https://sgl-project.github.io/frontend/frontend.html
Punto de referencia y rendimiento
Obtenga más información en nuestros blogs de lanzamiento: blog v0.2, blog v0.3
Hoja de ruta
Hoja de ruta de desarrollo (cuarto trimestre de 2024)
Citación y reconocimiento
Cite nuestro artículo, SGLang: Ejecución eficiente de programas modelo de lenguaje estructurado, si encuentra útil el proyecto. También aprendimos del diseño y código reutilizado de los siguientes proyectos: Guidance, vLLM, LightLLM, FlashInfer, Outlines y LMQL.