Download sglang - download do código-fonte sglang

sglang

Outro código-fonte

v0.3.4.post1

Baixar

Notícias

[2024/10] Primeiro Meetup Online SGLang (slides).
[2024/09] Versão SGLang v0.3: DeepSeek MLA 7x mais rápido, torch.compile 1,5x mais rápido, LLaVA-OneVision multiimagem/vídeo (blog).
[2024/07] Servindo Llama3 mais rápido com tempo de execução SGLang (vs. TensorRT-LLM, vLLM) (blog).

Mais

[2024/02] SGLang permite decodificação JSON 3x mais rápida com máquina de estado finito compactada (blog).
[2024/04] SGLang é usado pelo lançamento oficial (blog ) do LLaVA-NeXT (vídeo ).
[2024/01] SGLang fornece inferência até 5x mais rápida com RadixAttention (blog).
[2024/01] SGLang fornece suporte à demonstração de lançamento oficial do LLaVA v1.6 (uso).

Sobre

SGLang é uma estrutura de atendimento rápido para grandes modelos de linguagem e modelos de linguagem de visão. Isso torna sua interação com modelos mais rápida e controlável ao projetar em conjunto o tempo de execução de back-end e a linguagem de front-end. Os principais recursos incluem:

Tempo de execução de back-end rápido : fornece serviço eficiente com RadixAttention para cache de prefixo, decodificação restrita de avanço, lote contínuo, atenção de token (atenção paginada), paralelismo de tensor, kernels FlashInfer, pré-preenchimento fragmentado e quantização (INT4/FP8/AWQ/GPTQ).
Linguagem Frontend Flexível : Oferece uma interface intuitiva para programação de aplicativos LLM, incluindo chamadas de geração encadeadas, prompts avançados, fluxo de controle, entradas multimodais, paralelismo e interações externas.
Amplo suporte a modelos : suporta uma ampla gama de modelos generativos (Llama, Gemma, Mistral, QWen, DeepSeek, LLaVA, etc.), modelos de incorporação (e5-mistral, gte) e modelos de recompensa (Skywork), com fácil extensibilidade para integração de novos modelos.
Comunidade Ativa : SGLang é de código aberto e apoiado por uma comunidade ativa com adoção da indústria.

Começando

Instale SGLang: Consulte https://sgl-project.github.io/start/install.html

Enviar solicitações: consulte https://sgl-project.github.io/start/send_request.html

Back-end: tempo de execução SGLang (SRT)

Consulte https://sgl-project.github.io/backend/backend.html

Frontend: linguagem de geração estruturada (SGLang)

Consulte https://sgl-project.github.io/frontend/frontend.html

Referência e desempenho

Saiba mais em nossos blogs de lançamento: blog v0.2, blog v0.3

Roteiro

Roteiro de desenvolvimento (4º trimestre de 2024)

Citação e reconhecimento

Por favor, cite nosso artigo, SGLang: Efficient Execution of Structured Language Model Programs, se você achar o projeto útil. Também aprendemos com o design e reutilizamos código dos seguintes projetos: Guidance, vLLM, LightLLM, FlashInfer, Outlines e LMQL.

Expandir

Informações adicionais

Versão v0.3.4.post1
Tipo Outro código-fonte
Data da Última Atualização 2024-12-10
tamanho 2.92MB
Vindo de Github

Aplicativos Relacionados

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
viptools for eslam

2024-12-15
MySchedule.py

2024-12-15
VITAident

2024-12-15

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
waymo open dataset

Outro código-fonte

December 2023 Update
SmartTube

Outro código-fonte

24.71 Stable
Sunamu

Outro código-fonte

Release 2.2.0
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos