| Documents | Blogue | Papier | Discorde | Twitter/X | Développeur Slack |
vLLM x Snowflake Meetup (mercredi 13 novembre, de 17 h 30 à 20 h HP) au siège de Snowflake, San Mateo
Nous sommes ravis d'annoncer la dernière rencontre vLLM en personne de l'année ! Rejoignez les développeurs et ingénieurs vLLM de Snowflake AI Research pour discuter des dernières optimisations d'inférence LLM et de votre liste de souhaits vLLM 2025 ! Inscrivez-vous ici et participez à l'événement !
Dernières nouvelles ?
[2024/10] Nous venons de créer un développeur slack (slack.vllm.ai) axé sur la coordination des contributions et la discussion des fonctionnalités. N'hésitez pas à nous y rejoindre !
[2024/10] Le Ray Summit 2024 a organisé une piste spéciale pour vLLM ! Veuillez trouver les diapositives du discours d'ouverture de l'équipe vLLM ici. Apprenez-en davantage grâce aux discussions d’autres contributeurs et utilisateurs de vLLM !
[2024/09] Nous avons organisé la sixième rencontre vLLM avec NVIDIA ! Veuillez trouver les diapositives de la rencontre ici.
[2024/07] Nous avons organisé la cinquième rencontre vLLM avec AWS ! Veuillez trouver les diapositives de la rencontre ici.
[2024/07] En partenariat avec Meta, vLLM prend officiellement en charge Llama 3.1 avec la quantification FP8 et le parallélisme des pipelines ! Veuillez consulter notre article de blog ici.
[2024/06] Nous avons organisé la quatrième rencontre vLLM avec Cloudflare et BentoML ! Veuillez trouver les diapositives de la rencontre ici.
[2024/04] Nous avons organisé la troisième rencontre vLLM avec Roblox ! Veuillez trouver les diapositives de la rencontre ici.
[2024/01] Nous avons organisé la deuxième rencontre vLLM avec IBM ! Veuillez trouver les diapositives de la rencontre ici.
[2023/10] Nous avons organisé la première rencontre vLLM avec a16z ! Veuillez trouver les diapositives de la rencontre ici.
[2023/08] Nous tenons à exprimer notre sincère gratitude à Andreessen Horowitz (a16z) pour avoir accordé une généreuse subvention pour soutenir le développement et la recherche open source de vLLM.
[2023/06] Nous avons officiellement publié vLLM ! L'intégration FastChat-vLLM alimente LMSYS Vicuna et Chatbot Arena depuis la mi-avril. Consultez notre article de blog.
vLLM est une bibliothèque rapide et facile à utiliser pour l'inférence et le service LLM.
vLLM est rapide avec :
Débit de service de pointe
Gestion efficace de la mémoire des clés d’attention et des valeurs avec PagedAttention
Traitement par lots continu des demandes entrantes
Exécution rapide du modèle avec le graphique CUDA/HIP
Quantifications : GPTQ, AWQ, INT4, INT8 et FP8.
Noyaux CUDA optimisés, y compris l'intégration avec FlashAttention et FlashInfer.
Décodage spéculatif
Pré-remplissage fragmenté
Benchmark de performances : nous incluons un benchmark de performances à la fin de notre article de blog. Il compare les performances de vLLM à celles d'autres moteurs de service LLM (TensorRT-LLM, SGLang et LMDeploy). L'implémentation se trouve dans le dossier nightly-benchmarks et vous pouvez reproduire ce benchmark à l'aide de notre script exécutable en un clic.
vLLM est flexible et facile à utiliser avec :
Intégration transparente avec les modèles Hugging Face populaires
Service à haut débit avec divers algorithmes de décodage, notamment l'échantillonnage parallèle , la recherche de faisceaux , etc.
Prise en charge du parallélisme tenseur et du parallélisme pipeline pour l'inférence distribuée
Sorties en streaming
Serveur API compatible OpenAI
Prend en charge les GPU NVIDIA, les processeurs et GPU AMD, les processeurs et GPU Intel, les processeurs PowerPC, TPU et AWS Neuron.
Prise en charge de la mise en cache des préfixes
Prise en charge multi-lore
vLLM prend en charge de manière transparente les modèles open source les plus populaires sur HuggingFace, notamment :
LLM de type transformateur (par exemple, Lama)
Mélange d'experts LLM (par exemple, Mixtral)
Modèles d'intégration (par exemple E5-Mistral)
LLM multimodaux (par exemple, LLaVA)
Retrouvez la liste complète des modèles pris en charge ici.
Installez vLLM avec pip
ou depuis la source :
pip installer vllm
Consultez notre documentation pour en savoir plus.
Installation
Démarrage rapide
Modèles pris en charge
Nous accueillons et valorisons toutes les contributions et collaborations. Veuillez consulter CONTRIBUTING.md pour savoir comment vous impliquer.
vLLM est un projet communautaire. Nos ressources de calcul pour le développement et les tests sont prises en charge par les organisations suivantes. Merci pour votre soutien !
a16z
DMLA
À toute échelle
AWS
Nuage de Crusoé
Briques de données
Infra Profond
Boîte de dépôt
Google Cloud
Laboratoire Lambda
Nvidia
Reproduire
Roblox
RunPod
Capitale Séquoia
IA Skywork
Entraînement
Université de Berkeley
Université de Californie à San Diego
FondsZhen
Nous disposons également d'un lieu officiel de collecte de fonds via OpenCollective. Nous prévoyons d'utiliser le fonds pour soutenir le développement, la maintenance et l'adoption de vLLM.
Si vous utilisez vLLM pour votre recherche, veuillez citer notre article :
@inproceedings{kwon2023efficient, title={Gestion efficace de la mémoire pour la diffusion de modèles de langage étendus avec PagedAttention}, author={Woosuk Kwon et Zhuohan Li et Siyuan Zhuang et Ying Sheng et Lianmin Zheng et Cody Hao Yu et Joseph E. Gonzalez et Hao Zhang et Ion Stoica}, booktitle={Actes du 29e Symposium ACM SIGOPS sur les systèmes d'exploitation Principes}, année={2023}}
Pour les questions techniques et les demandes de fonctionnalités, veuillez utiliser les problèmes ou discussions Github.
Pour discuter avec d'autres utilisateurs, veuillez utiliser Discord.
Pour coordonner les contributions et le développement, veuillez utiliser Slack.
Pour les informations de sécurité, veuillez utiliser la fonction d'avis de sécurité de Github.
Pour les collaborations et les partenariats, veuillez nous contacter à vllm-questions AT lists.berkeley.edu.