| Documentação | Blogue | Papel | Discórdia | Twitter/X | Folga do desenvolvedor |
Encontro vLLM x Snowflake (quarta-feira, 13 de novembro, das 17h30 às 20h PT) na sede da Snowflake, San Mateo
Temos o prazer de anunciar o último encontro vLLM presencial do ano! Junte-se aos desenvolvedores e engenheiros do vLLM da Snowflake AI Research para conversar sobre as mais recentes otimizações de inferência do LLM e sua lista de desejos do vLLM para 2025! Cadastre-se aqui e faça parte do evento!
Últimas notícias ?
[2024/10] Acabamos de criar um desenvolvedor slack (slack.vllm.ai) com foco na coordenação de contribuições e discussão de recursos. Fique à vontade para se juntar a nós lá!
[2024/10] Ray Summit 2024 realizou uma trilha especial para vLLM! Encontre os slides da palestra de abertura da equipe vLLM aqui. Aprenda mais com as palestras de outros colaboradores e usuários do vLLM!
[2024/09] Organizamos o sexto encontro vLLM com a NVIDIA! Encontre os slides do encontro aqui.
[2024/07] Organizamos o quinto encontro vLLM com AWS! Encontre os slides do encontro aqui.
[2024/07] Em parceria com Meta, vLLM oferece suporte oficial ao Llama 3.1 com quantização FP8 e paralelismo de pipeline! Por favor, confira nossa postagem no blog aqui.
[2024/06] Organizamos o quarto encontro vLLM com Cloudflare e BentoML! Encontre os slides do encontro aqui.
[2024/04] Organizamos o terceiro encontro vLLM com Roblox! Encontre os slides do encontro aqui.
[2024/01] Organizamos o segundo encontro vLLM com a IBM! Encontre os slides do encontro aqui.
[2023/10] Organizamos o primeiro encontro vLLM com a16z! Encontre os slides do encontro aqui.
[2023/08] Gostaríamos de expressar nossa sincera gratidão a Andreessen Horowitz (a16z) por fornecer uma generosa doação para apoiar o desenvolvimento e pesquisa de código aberto do vLLM.
[2023/06] Lançamos oficialmente o vLLM! A integração FastChat-vLLM alimentou LMSYS Vicuna e Chatbot Arena desde meados de abril. Confira nossa postagem no blog.
vLLM é uma biblioteca rápida e fácil de usar para inferência e serviço LLM.
vLLM é rápido com:
Taxa de transferência de serviço de última geração
Gerenciamento eficiente de chave de atenção e memória de valor com PagedAttention
Lote contínuo de solicitações recebidas
Execução rápida de modelo com gráfico CUDA/HIP
Quantizações: GPTQ, AWQ, INT4, INT8 e FP8.
Kernels CUDA otimizados, incluindo integração com FlashAttention e FlashInfer.
Decodificação especulativa
Pré-preenchimento fragmentado
Referência de desempenho : incluímos uma referência de desempenho no final da postagem do nosso blog. Ele compara o desempenho do vLLM com outros mecanismos de serviço LLM (TensorRT-LLM, SGLang e LMDeploy). A implementação está na pasta nightly-benchmarks e você pode reproduzir esse benchmark usando nosso script executável com um clique.
vLLM é flexível e fácil de usar com:
Integração perfeita com modelos populares de Hugging Face
Serviço de alto rendimento com vários algoritmos de decodificação, incluindo amostragem paralela , pesquisa de feixe e muito mais
Suporte para paralelismo de tensor e paralelismo de pipeline para inferência distribuída
Saídas de streaming
Servidor API compatível com OpenAI
Suporta GPUs NVIDIA, CPUs e GPUs AMD, CPUs e GPUs Intel, CPUs PowerPC, TPU e AWS Neuron.
Suporte para cache de prefixo
Suporte multi-lora
vLLM suporta perfeitamente os modelos de código aberto mais populares no HuggingFace, incluindo:
LLMs semelhantes a transformadores (por exemplo, Llama)
LLMs de mistura de especialistas (por exemplo, Mixtral)
Incorporação de modelos (por exemplo, E5-Mistral)
LLMs multimodais (por exemplo, LLaVA)
Encontre a lista completa de modelos suportados aqui.
Instale o vLLM com pip
ou da fonte:
pip instalar vllm
Visite nossa documentação para saber mais.
Instalação
Início rápido
Modelos Suportados
Acolhemos e valorizamos quaisquer contribuições e colaborações. Por favor, verifique CONTRIBUTING.md para saber como se envolver.
vLLM é um projeto comunitário. Nossos recursos computacionais para desenvolvimento e testes são apoiados pelas seguintes organizações. Obrigado pelo seu apoio!
a16z
AMD
Qualquer escala
AWS
Nuvem Crusoé
Blocos de dados
DeepInfra
Dropbox
Google Nuvem
Laboratório Lambda
NVIDIA
Replicar
Roblox
RunPod
Capital da Sequóia
IA Skywork
Treinador
Universidade da Califórnia em Berkeley
Universidade da Califórnia em San Diego
Fundo Zhen
Também temos um local oficial de arrecadação de fundos através do OpenCollective. Planejamos usar o fundo para apoiar o desenvolvimento, manutenção e adoção do vLLM.
Se você usa vLLM para sua pesquisa, cite nosso artigo:
@inproceedings{kwon2023efficient, title={Gerenciamento eficiente de memória para serviço de modelo de linguagem grande com PagedAttention}, autor={Woosuk Kwon e Zhuohan Li e Siyuan Zhuang e Ying Sheng e Lianmin Zheng e Cody Hao Yu e Joseph E. Gonzalez e Hao Zhang e Ion Stoica}, booktitle={Anais do 29º Simpósio de Operação ACM SIGOPS Princípios de Sistemas}, ano={2023}}
Para perguntas técnicas e solicitações de recursos, use questões ou discussões do Github.
Para discutir com outros usuários, use o Discord.
Para coordenar contribuições e desenvolvimento, use o Slack.
Para divulgações de segurança, use o recurso de consultoria de segurança do Github.
Para colaborações e parcerias, entre em contato conosco em vllm-questions AT lists.berkeley.edu.