| Documentación | Blog | Papel | Discordia | Gorjeo/X | Holgura del desarrollador |
Reunión de vLLM x Snowflake (miércoles 13 de noviembre, de 5:30 a 8 p. m., hora del Pacífico) en Snowflake HQ, San Mateo
¡Estamos emocionados de anunciar la última reunión vLLM en persona del año! Únase a los desarrolladores e ingenieros de vLLM de Snowflake AI Research para conversar sobre las últimas optimizaciones de inferencia de LLM y su lista de deseos de vLLM para 2025. ¡Regístrate aquí y sé parte del evento!
¿ Últimas noticias ?
[2024/10] Acabamos de crear una holgura para desarrolladores (slack.vllm.ai) que se centra en coordinar contribuciones y discutir características. ¡No dudes en unirte a nosotros allí!
[2024/10] ¡Ray Summit 2024 celebró una pista especial para vLLM! Encuentre las diapositivas de la charla de apertura del equipo de vLLM aquí. ¡Obtenga más información de las charlas de otros contribuyentes y usuarios de vLLM!
[2024/09] ¡Organizamos la sexta reunión de vLLM con NVIDIA! Encuentre las diapositivas de la reunión aquí.
[2024/07] ¡Organizamos la quinta reunión de vLLM con AWS! Encuentre las diapositivas de la reunión aquí.
[2024/07] ¡En asociación con Meta, vLLM admite oficialmente Llama 3.1 con cuantificación FP8 y paralelismo de canalización! Consulte nuestra publicación de blog aquí.
[2024/06] ¡Organizamos la cuarta reunión de vLLM con Cloudflare y BentoML! Encuentre las diapositivas de la reunión aquí.
[2024/04] ¡Organizamos la tercera reunión de vLLM con Roblox! Encuentre las diapositivas de la reunión aquí.
[2024/01] ¡Organizamos la segunda reunión de vLLM con IBM! Encuentre las diapositivas de la reunión aquí.
[2023/10] ¡Organizamos la primera reunión de vLLM con a16z! Encuentre las diapositivas de la reunión aquí.
[2023/08] Nos gustaría expresar nuestro más sincero agradecimiento a Andreessen Horowitz (a16z) por brindar una generosa subvención para apoyar el desarrollo y la investigación de código abierto de vLLM.
[2023/06] ¡Lanzamos oficialmente vLLM! La integración FastChat-vLLM ha impulsado LMSYS Vicuña y Chatbot Arena desde mediados de abril. Consulte nuestra publicación de blog.
vLLM es una biblioteca rápida y fácil de usar para inferencia y servicio de LLM.
vLLM es rápido con:
Rendimiento de servicio de última generación
Gestión eficiente de la clave de atención y la memoria de valores con PagedAttention
Lote continuo de solicitudes entrantes
Ejecución rápida del modelo con gráfico CUDA/HIP
Cuantizaciones: GPTQ, AWQ, INT4, INT8 y FP8.
Kernels CUDA optimizados, incluida la integración con FlashAttention y FlashInfer.
Decodificación especulativa
Precarga fragmentada
Punto de referencia de rendimiento : incluimos un punto de referencia de rendimiento al final de nuestra publicación de blog. Compara el rendimiento de vLLM con el de otros motores de servicio de LLM (TensorRT-LLM, SGLang y LMDeploy). La implementación se encuentra en la carpeta nightly-benchmarks y puede reproducir este punto de referencia utilizando nuestro script ejecutable con un solo clic.
vLLM es flexible y fácil de usar con:
Integración perfecta con los modelos populares de Hugging Face
Servicio de alto rendimiento con varios algoritmos de decodificación, incluido muestreo paralelo , búsqueda de haz y más
Soporte para paralelismo tensorial y paralelismo de canalización para inferencia distribuida
Salidas de transmisión
Servidor API compatible con OpenAI
Admite GPU NVIDIA, CPU y GPU AMD, CPU y GPU Intel, CPU PowerPC, TPU y AWS Neuron.
Soporte de almacenamiento en caché de prefijos
Soporte multilora
vLLM admite perfectamente los modelos de código abierto más populares en HuggingFace, que incluyen:
LLM tipo transformador (por ejemplo, Llama)
LLM combinados de expertos (p. ej., Mixtral)
Modelos integrados (por ejemplo, E5-Mistral)
LLM multimodales (por ejemplo, LLaVA)
Encuentre la lista completa de modelos compatibles aquí.
Instale vLLM con pip
o desde la fuente:
instalación de pip vllm
Visite nuestra documentación para obtener más información.
Instalación
Inicio rápido
Modelos compatibles
Damos la bienvenida y valoramos cualquier contribución y colaboración. Consulte CONTRIBUTING.md para saber cómo participar.
vLLM es un proyecto comunitario. Nuestros recursos informáticos para desarrollo y pruebas cuentan con el respaldo de las siguientes organizaciones. ¡Gracias por su apoyo!
a16z
AMD
cualquier escala
AWS
Nube Crusoe
Ladrillos de datos
Infraestructura profunda
buzón
Nube de Google
Laboratorio Lambda
Nvidia
Reproducir exactamente
Roblox
EjecutarPod
Capital de las secuoyas
IA del cielo
entrenar
Universidad de Berkeley
Universidad de San Diego
FondoZhen
También contamos con un lugar oficial de recaudación de fondos a través de OpenCollective. Planeamos utilizar el fondo para respaldar el desarrollo, mantenimiento y adopción de vLLM.
Si utiliza vLLM para su investigación, cite nuestro artículo:
@inproceedings{kwon2023ficient, title={Gestión eficiente de la memoria para modelos de lenguaje grandes que sirven con PagedAttention}, autor={Woosuk Kwon y Zhuohan Li y Siyuan Zhuang y Ying Sheng y Lianmin Zheng y Cody Hao Yu y Joseph E. Gonzalez y Hao Zhang y Ion Stoica}, booktitle={Actas del 29º Simposio de ACM SIGOPS sobre principios de sistemas operativos}, año={2023}}
Para preguntas técnicas y solicitudes de funciones, utilice los problemas o discusiones de Github.
Para discutir con otros usuarios, utilice Discord.
Para coordinar contribuciones y desarrollo, utilice Slack.
Para divulgaciones de seguridad, utilice la función de aviso de seguridad de Github.
Para colaboraciones y asociaciones, contáctenos en vllm-questions ATlists.berkeley.edu.