| Blogue | Documentação | Junte-se ao Slack | Participe da reunião quinzenal de desenvolvimento | Apresentações |
Notícias
- [2024/10] Primeiro Meetup Online SGLang (slides).
- [2024/09] Versão SGLang v0.3: DeepSeek MLA 7x mais rápido, torch.compile 1,5x mais rápido, LLaVA-OneVision multiimagem/vídeo (blog).
- [2024/07] Servindo Llama3 mais rápido com tempo de execução SGLang (vs. TensorRT-LLM, vLLM) (blog).
Mais
- [2024/02] SGLang permite decodificação JSON 3x mais rápida com máquina de estado finito compactada (blog).
- [2024/04] SGLang é usado pelo lançamento oficial (blog ) do LLaVA-NeXT (vídeo ).
- [2024/01] SGLang fornece inferência até 5x mais rápida com RadixAttention (blog).
- [2024/01] SGLang fornece suporte à demonstração de lançamento oficial do LLaVA v1.6 (uso).
Sobre
SGLang é uma estrutura de atendimento rápido para grandes modelos de linguagem e modelos de linguagem de visão. Isso torna sua interação com modelos mais rápida e controlável ao projetar em conjunto o tempo de execução de back-end e a linguagem de front-end. Os principais recursos incluem:
- Tempo de execução de back-end rápido : fornece serviço eficiente com RadixAttention para cache de prefixo, decodificação restrita de avanço, lote contínuo, atenção de token (atenção paginada), paralelismo de tensor, kernels FlashInfer, pré-preenchimento fragmentado e quantização (INT4/FP8/AWQ/GPTQ).
- Linguagem Frontend Flexível : Oferece uma interface intuitiva para programação de aplicativos LLM, incluindo chamadas de geração encadeadas, prompts avançados, fluxo de controle, entradas multimodais, paralelismo e interações externas.
- Amplo suporte a modelos : suporta uma ampla gama de modelos generativos (Llama, Gemma, Mistral, QWen, DeepSeek, LLaVA, etc.), modelos de incorporação (e5-mistral, gte) e modelos de recompensa (Skywork), com fácil extensibilidade para integração de novos modelos.
- Comunidade Ativa : SGLang é de código aberto e apoiado por uma comunidade ativa com adoção da indústria.
Começando
Instale SGLang: Consulte https://sgl-project.github.io/start/install.html
Enviar solicitações: consulte https://sgl-project.github.io/start/send_request.html
Back-end: tempo de execução SGLang (SRT)
Consulte https://sgl-project.github.io/backend/backend.html
Frontend: linguagem de geração estruturada (SGLang)
Consulte https://sgl-project.github.io/frontend/frontend.html
Referência e desempenho
Saiba mais em nossos blogs de lançamento: blog v0.2, blog v0.3
Roteiro
Roteiro de desenvolvimento (4º trimestre de 2024)
Citação e reconhecimento
Por favor, cite nosso artigo, SGLang: Efficient Execution of Structured Language Model Programs, se você achar o projeto útil. Também aprendemos com o design e reutilizamos código dos seguintes projetos: Guidance, vLLM, LightLLM, FlashInfer, Outlines e LMQL.